論文の概要: CoMo: Compositional Motion Customization for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2510.23007v1
- Date: Mon, 27 Oct 2025 04:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.453484
- Title: CoMo: Compositional Motion Customization for Text-to-Video Generation
- Title(参考訳): CoMo:テキスト・ビデオ生成のための合成モーションカスタマイズ
- Authors: Youcan Xu, Zhen Wang, Jiaxin Shi, Kexin Li, Feifei Shao, Jun Xiao, Yi Yang, Jun Yu, Long Chen,
- Abstract要約: CoMoは、textbfcompositional motion customization$の新たなフレームワークである。
これは、モーションマージの絡み合いと非効率なマルチモーションブレンディングの課題に対処する。
CoMoは最先端のパフォーマンスを実現し、制御可能なビデオ生成能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 40.446146411270156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent text-to-video models excel at generating diverse scenes, they struggle with precise motion control, particularly for complex, multi-subject motions. Although methods for single-motion customization have been developed to address this gap, they fail in compositional scenarios due to two primary challenges: motion-appearance entanglement and ineffective multi-motion blending. This paper introduces CoMo, a novel framework for $\textbf{compositional motion customization}$ in text-to-video generation, enabling the synthesis of multiple, distinct motions within a single video. CoMo addresses these issues through a two-phase approach. First, in the single-motion learning phase, a static-dynamic decoupled tuning paradigm disentangles motion from appearance to learn a motion-specific module. Second, in the multi-motion composition phase, a plug-and-play divide-and-merge strategy composes these learned motions without additional training by spatially isolating their influence during the denoising process. To facilitate research in this new domain, we also introduce a new benchmark and a novel evaluation metric designed to assess multi-motion fidelity and blending. Extensive experiments demonstrate that CoMo achieves state-of-the-art performance, significantly advancing the capabilities of controllable video generation. Our project page is at https://como6.github.io/.
- Abstract(参考訳): 最近のテキスト・ビデオ・モデルは多様なシーンを生成するのに優れていますが、特に複雑なマルチオブジェクト・モーションにおいて、正確なモーション・コントロールに苦戦しています。
このギャップに対処するために、シングルモーションのカスタマイズ法が開発されているが、これらは2つの主要な課題、すなわち、動きの出現の絡み合いと非効率なマルチモーションブレンディングのために、構成上のシナリオで失敗する。
本稿では,テキスト・ビデオ生成における$\textbf{compositional motion customization}$の新しいフレームワークであるCoMoを紹介する。
CoMoは2段階のアプローチでこれらの問題に対処する。
まず、シングルモーション学習フェーズにおいて、静的力学的疎結合チューニングパラダイムは、外見から動きを歪め、動き固有のモジュールを学習する。
第二に、多動合成フェーズにおいて、プラグ・アンド・プレイの分割・マージ戦略は、デノナイジング過程における影響を空間的に分離することにより、これらの学習運動を構成する。
この領域の研究を容易にするために,マルチモーションの忠実度とブレンディングを評価するために,新しいベンチマークと新しい評価指標を導入する。
大規模な実験により、CoMoは最先端のパフォーマンスを実現し、制御可能なビデオ生成能力を大幅に向上した。
プロジェクトページはhttps://como6.github.io/.com/です。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer [44.33224798292861]
ConMoは、被写体の動きとカメラの動きを歪め、再構成するフレームワークである。
多様な対象に対してより正確なモーションコントロールを可能にし、マルチオブジェクトシナリオのパフォーマンスを向上させる。
ConMoは、被写体のサイズや位置の編集、被写体除去、セマンティックな修正、カメラモーションシミュレーションなど、幅広いアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2025-04-03T10:15:52Z) - Motion Anything: Any to Motion Generation [24.769413146731264]
Motion Anythingはマルチモーダルモーション生成フレームワークである。
我々のモデルは、テキストや音楽を含む多モード条件を適応的に符号化し、制御性を向上させる。
Text-Music-Danceデータセットは2,153対のテキスト、音楽、ダンスで構成されており、AIST++の2倍の大きさである。
論文 参考訳(メタデータ) (2025-03-10T06:04:31Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。