Fugu-MT 論文翻訳(概要): Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

論文の概要: Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

arxiv url: http://arxiv.org/abs/2507.05963v1
Date: Tue, 08 Jul 2025 13:11:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:38.057686
Title: Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation
Title（参考訳）: Tora2:マルチエンティティビデオ生成のための動きと外観カスタマイズ拡散変換器
Authors: Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang,
Abstract要約: Toraはモーション誘導ビデオ生成のための拡散トランスフォーマーモデルである。 Tora2は、外観とモーションのカスタマイズの両方で機能を拡張するために、いくつかの設計改善を導入した。
参考スコア（独自算出の注目度）: 8.108805590363392
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in diffusion transformer models for motion-guided video generation, such as Tora, have shown significant progress. In this paper, we present Tora2, an enhanced version of Tora, which introduces several design improvements to expand its capabilities in both appearance and motion customization. Specifically, we introduce a decoupled personalization extractor that generates comprehensive personalization embeddings for multiple open-set entities, better preserving fine-grained visual details compared to previous methods. Building on this, we design a gated self-attention mechanism to integrate trajectory, textual description, and visual information for each entity. This innovation significantly reduces misalignment in multimodal conditioning during training. Moreover, we introduce a contrastive loss that jointly optimizes trajectory dynamics and entity consistency through explicit mapping between motion and personalization embeddings. Tora2 is, to our best knowledge, the first method to achieve simultaneous multi-entity customization of appearance and motion for video generation. Experimental results demonstrate that Tora2 achieves competitive performance with state-of-the-art customization methods while providing advanced motion control capabilities, which marks a critical advancement in multi-condition video generation. Project page: https://github.com/alibaba/Tora .
Abstract（参考訳）: Toraのようなモーションガイド映像生成のための拡散トランスフォーマモデルの最近の進歩は、大きな進歩を示している。本稿では,Toraの強化版であるTora2について紹介する。具体的には、複数のオープンセットエンティティに対する包括的パーソナライズ埋め込みを生成する分離されたパーソナライズ抽出器を導入し、従来の方法と比較してきめ細かい視覚的詳細を保存する。これに基づいて、各エンティティの軌跡、テキスト記述、視覚情報を統合するためのゲート型自己認識機構を設計する。このイノベーションは、トレーニング中のマルチモーダルコンディショニングにおけるミスアライメントを著しく低減する。さらに、運動とパーソナライゼーションの埋め込みを明示的にマッピングすることで、軌道のダイナミクスと実体の一貫性を協調的に最適化する対照的な損失を導入する。 Tora2は、我々の知る限り、ビデオ生成のための外観と動きの同時多目的カスタマイズを実現するための最初の方法である。実験により,Tora2は,多条件映像生成において重要な進歩となる高度なモーションコントロール機能を提供しながら,最先端のカスタマイズ手法と競合する性能を実現していることが示された。プロジェクトページ: https://github.com/alibaba/Tora 。

関連論文リスト

Versatile Transition Generation with Image-to-Video Diffusion [89.67070538399457]
本稿では,スムーズで高忠実でセマンティックにコヒーレントな動画遷移を生成できるVersatile Transitionビデオ生成フレームワークを提案する。我々は,VTGが4つのタスクすべてにおいて,優れた遷移性能を実現することを示す。
論文参考訳（メタデータ） (2025-08-03T10:03:56Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文参考訳（メタデータ） (2025-05-28T23:49:18Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
Prototypical Transformer as Unified Motion Learners [38.31482767855841]
Prototypeal Transformer(ProtoFormer)は、プロトタイプの観点から様々な動作タスクにアプローチするフレームワークである。 ProtoFormerは、モーションダイナミクスを慎重に検討することで、Transformerとプロトタイプ学習をシームレスに統合する。
論文参考訳（メタデータ） (2024-06-03T17:41:28Z)
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文参考訳（メタデータ） (2024-05-30T17:57:30Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
Compositional Transformers for Scene Generation [13.633811200719627]
本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。視覚的品質,多様性,一貫性の観点から,最先端のパフォーマンスを実現していることを示す。さらなる実験はモデルの絡み合いを実証し、生成過程についてより深い洞察を与える。
論文参考訳（メタデータ） (2021-11-17T08:11:42Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。