論文の概要: Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation
- arxiv url: http://arxiv.org/abs/2507.05963v1
- Date: Tue, 08 Jul 2025 13:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.057686
- Title: Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation
- Title(参考訳): Tora2:マルチエンティティビデオ生成のための動きと外観カスタマイズ拡散変換器
- Authors: Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang,
- Abstract要約: Toraはモーション誘導ビデオ生成のための拡散トランスフォーマーモデルである。
Tora2は、外観とモーションのカスタマイズの両方で機能を拡張するために、いくつかの設計改善を導入した。
- 参考スコア(独自算出の注目度): 8.108805590363392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion transformer models for motion-guided video generation, such as Tora, have shown significant progress. In this paper, we present Tora2, an enhanced version of Tora, which introduces several design improvements to expand its capabilities in both appearance and motion customization. Specifically, we introduce a decoupled personalization extractor that generates comprehensive personalization embeddings for multiple open-set entities, better preserving fine-grained visual details compared to previous methods. Building on this, we design a gated self-attention mechanism to integrate trajectory, textual description, and visual information for each entity. This innovation significantly reduces misalignment in multimodal conditioning during training. Moreover, we introduce a contrastive loss that jointly optimizes trajectory dynamics and entity consistency through explicit mapping between motion and personalization embeddings. Tora2 is, to our best knowledge, the first method to achieve simultaneous multi-entity customization of appearance and motion for video generation. Experimental results demonstrate that Tora2 achieves competitive performance with state-of-the-art customization methods while providing advanced motion control capabilities, which marks a critical advancement in multi-condition video generation. Project page: https://github.com/alibaba/Tora .
- Abstract(参考訳): Toraのようなモーションガイド映像生成のための拡散トランスフォーマモデルの最近の進歩は、大きな進歩を示している。
本稿では,Toraの強化版であるTora2について紹介する。
具体的には、複数のオープンセットエンティティに対する包括的パーソナライズ埋め込みを生成する分離されたパーソナライズ抽出器を導入し、従来の方法と比較してきめ細かい視覚的詳細を保存する。
これに基づいて、各エンティティの軌跡、テキスト記述、視覚情報を統合するためのゲート型自己認識機構を設計する。
このイノベーションは、トレーニング中のマルチモーダルコンディショニングにおけるミスアライメントを著しく低減する。
さらに、運動とパーソナライゼーションの埋め込みを明示的にマッピングすることで、軌道のダイナミクスと実体の一貫性を協調的に最適化する対照的な損失を導入する。
Tora2は、我々の知る限り、ビデオ生成のための外観と動きの同時多目的カスタマイズを実現するための最初の方法である。
実験により,Tora2は,多条件映像生成において重要な進歩となる高度なモーションコントロール機能を提供しながら,最先端のカスタマイズ手法と競合する性能を実現していることが示された。
プロジェクトページ: https://github.com/alibaba/Tora 。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - Prototypical Transformer as Unified Motion Learners [38.31482767855841]
Prototypeal Transformer(ProtoFormer)は、プロトタイプの観点から様々な動作タスクにアプローチするフレームワークである。
ProtoFormerは、モーションダイナミクスを慎重に検討することで、Transformerとプロトタイプ学習をシームレスに統合する。
論文 参考訳(メタデータ) (2024-06-03T17:41:28Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Compositional Transformers for Scene Generation [13.633811200719627]
本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。
視覚的品質,多様性,一貫性の観点から,最先端のパフォーマンスを実現していることを示す。
さらなる実験はモデルの絡み合いを実証し、生成過程についてより深い洞察を与える。
論文 参考訳(メタデータ) (2021-11-17T08:11:42Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。