論文の概要: I2VControl: Disentangled and Unified Video Motion Synthesis Control
- arxiv url: http://arxiv.org/abs/2411.17765v3
- Date: Wed, 30 Jul 2025 10:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:50.772397
- Title: I2VControl: Disentangled and Unified Video Motion Synthesis Control
- Title(参考訳): I2VControl: アンタングル・統一ビデオモーション合成制御
- Authors: Wanquan Feng, Tianhao Qi, Jiawei Liu, Mingzhen Sun, Pengqi Tu, Tianxiang Ma, Fei Dai, Songtao Zhao, Siyu Zhou, Qian He,
- Abstract要約: 論理的矛盾を克服するために,不整合で統一されたフレームワーク,すなわちI2VControlを提案する。
私たちは、カメラコントロール、オブジェクトドラッグ、モーションブラシを再考し、すべてのタスクを一貫した表現に再構成します。
我々は広範囲な実験を行い、様々な制御タスクにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 11.83645633418189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion controllability is crucial in video synthesis. However, most previous methods are limited to single control types, and combining them often results in logical conflicts. In this paper, we propose a disentangled and unified framework, namely I2VControl, to overcome the logical conflicts. We rethink camera control, object dragging, and motion brush, reformulating all tasks into a consistent representation based on point trajectories, each managed by a dedicated formulation. Accordingly, we propose a spatial partitioning strategy, where each unit is assigned to a concomitant control category, enabling diverse control types to be dynamically orchestrated within a single synthesis pipeline without conflicts. Furthermore, we design an adapter structure that functions as a plug-in for pre-trained models and is agnostic to specific model architectures. We conduct extensive experiments, achieving excellent performance on various control tasks, and our method further facilitates user-driven creative combinations, enhancing innovation and creativity. Project page: https://wanquanf.github.io/I2VControl .
- Abstract(参考訳): モーションコントロールはビデオ合成において重要である。
しかし、従来のほとんどのメソッドは単一の制御タイプに限られており、それらを組み合わせることで論理的な矛盾が生じることが多い。
本稿では,論理的矛盾を克服するために,不整合で統一されたフレームワーク,すなわちI2VControlを提案する。
我々は、カメラ制御、オブジェクトドラッグ、モーションブラシを再考し、全てのタスクをポイントトラジェクトリに基づいて一貫した表現に再構成し、それぞれ専用の定式化によって管理する。
そこで我々は,各ユニットを協調制御カテゴリに割り当てる空間分割戦略を提案し,コンフリクトのない単一合成パイプライン内で多様な制御タイプを動的にオーケストレーションできるようにする。
さらに,事前学習モデルのプラグインとして機能し,特定のモデルアーキテクチャに依存しないアダプタ構造を設計する。
多様な制御タスクにおいて優れた性能を達成し,ユーザ主導の創造的組み合わせをさらに促進し,イノベーションと創造性を向上する。
プロジェクトページ: https://wanquanf.github.io/I2VControl
関連論文リスト
- TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [7.900728371180723]
TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。
本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。
私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
論文 参考訳(メタデータ) (2025-04-11T00:41:25Z) - Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。
さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - MotionBridge: Dynamic Video Inbetweening with Flexible Controls [29.029643539300434]
我々はMotionBridgeを紹介した。
トラジェクティブストローク、ビデオ編集マスク、ガイドピクセル、テキストビデオなど、柔軟なコントロールが可能だ。
このようなマルチモーダル制御は、よりダイナミックでカスタマイズ可能で、文脈的に正確な視覚的物語を可能にする。
論文 参考訳(メタデータ) (2024-12-17T18:59:33Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。