論文の概要: ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer
- arxiv url: http://arxiv.org/abs/2504.02451v1
- Date: Thu, 03 Apr 2025 10:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:28.359503
- Title: ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer
- Title(参考訳): ConMo: ゼロショット運動伝達のための制御可能な運動異方性と再構成
- Authors: Jiayi Gao, Zijin Yin, Changcheng Hua, Yuxin Peng, Kongming Liang, Zhanyu Ma, Jun Guo, Yang Liu,
- Abstract要約: ConMoは、被写体の動きとカメラの動きを歪め、再構成するフレームワークである。
多様な対象に対してより正確なモーションコントロールを可能にし、マルチオブジェクトシナリオのパフォーマンスを向上させる。
ConMoは、被写体のサイズや位置の編集、被写体除去、セマンティックな修正、カメラモーションシミュレーションなど、幅広いアプリケーションをアンロックする。
- 参考スコア(独自算出の注目度): 44.33224798292861
- License:
- Abstract: The development of Text-to-Video (T2V) generation has made motion transfer possible, enabling the control of video motion based on existing footage. However, current methods have two limitations: 1) struggle to handle multi-subjects videos, failing to transfer specific subject motion; 2) struggle to preserve the diversity and accuracy of motion as transferring to subjects with varying shapes. To overcome these, we introduce \textbf{ConMo}, a zero-shot framework that disentangle and recompose the motions of subjects and camera movements. ConMo isolates individual subject and background motion cues from complex trajectories in source videos using only subject masks, and reassembles them for target video generation. This approach enables more accurate motion control across diverse subjects and improves performance in multi-subject scenarios. Additionally, we propose soft guidance in the recomposition stage which controls the retention of original motion to adjust shape constraints, aiding subject shape adaptation and semantic transformation. Unlike previous methods, ConMo unlocks a wide range of applications, including subject size and position editing, subject removal, semantic modifications, and camera motion simulation. Extensive experiments demonstrate that ConMo significantly outperforms state-of-the-art methods in motion fidelity and semantic consistency. The code is available at https://github.com/Andyplus1/ConMo.
- Abstract(参考訳): テキスト・トゥ・ビデオ・ジェネレーション(T2V)の開発により、既存の映像に基づいて動画の移動を制御できるようになった。
しかし、現在の方法には2つの制限がある。
1) 多目的映像の処理に苦慮し,特定の被写体の動きの伝達に失敗する。
2) 異なる形状の被験者への移動として, 動作の多様性と正確性を維持するのに苦慮した。
これらを克服するために、被写体の動きとカメラの動きを歪め、再構成するゼロショットフレームワークである \textbf{ConMo} を導入する。
ConMoは、被写体マスクのみを使用して、ソースビデオの複雑な軌跡から個々の被写体と背景運動キューを分離し、ターゲットビデオ生成のためにそれらを再組み立てる。
このアプローチにより、多様な対象に対してより正確な動作制御が可能となり、多目的シナリオのパフォーマンスが向上する。
さらに,元の動作の保持を制御し,形状制約を調整し,主観的な形状適応と意味変換を支援するソフトガイダンスを提案する。
従来の方法とは異なり、ConMoは被写体のサイズや位置の編集、被写体除去、セマンティックな修正、カメラモーションシミュレーションなど、幅広い応用をアンロックしている。
大規模な実験により、ConMoは動きの忠実さと意味的一貫性において最先端の手法を著しく上回っていることが示された。
コードはhttps://github.com/Andyplus1/ConMoで入手できる。
関連論文リスト
- Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MotionBooth: Motion-Aware Customized Text-to-Video Generation [44.41894050494623]
MotionBoothは、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーションするためのフレームワークである。
オブジェクトの形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率的に微調整する。
提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を示す。
論文 参考訳(メタデータ) (2024-06-25T17:42:25Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。