論文の概要: I2VControl: Disentangled and Unified Video Motion Synthesis Control
- arxiv url: http://arxiv.org/abs/2411.17765v1
- Date: Tue, 26 Nov 2024 04:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 15:52:53.383945
- Title: I2VControl: Disentangled and Unified Video Motion Synthesis Control
- Title(参考訳): I2VControl: アンタングル・統一ビデオモーション合成制御
- Authors: Wanquan Feng, Tianhao Qi, Jiawei Liu, Mingzhen Sun, Pengqi Tu, Tianxiang Ma, Fei Dai, Songtao Zhao, Siyu Zhou, Qian He,
- Abstract要約: I2VControlは,映像合成における複数の動作制御タスクを統一するフレームワークである。
提案手法では,映像を個々のモーションユニットに分割し,各ユニットをアンタングル制御信号で表現する。
我々の方法論は、事前訓練されたモデルのためのプラグインとしてシームレスに統合され、特定のモデルアーキテクチャに依存しないままです。
- 参考スコア(独自算出の注目度): 11.83645633418189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video synthesis techniques are undergoing rapid progress, with controllability being a significant aspect of practical usability for end-users. Although text condition is an effective way to guide video synthesis, capturing the correct joint distribution between text descriptions and video motion remains a substantial challenge. In this paper, we present a disentangled and unified framework, namely I2VControl, that unifies multiple motion control tasks in image-to-video synthesis. Our approach partitions the video into individual motion units and represents each unit with disentangled control signals, which allows for various control types to be flexibly combined within our single system. Furthermore, our methodology seamlessly integrates as a plug-in for pre-trained models and remains agnostic to specific model architectures. We conduct extensive experiments, achieving excellent performance on various control tasks, and our method further facilitates user-driven creative combinations, enhancing innovation and creativity. The project page is: https://wanquanf.github.io/I2VControl .
- Abstract(参考訳): ビデオ合成技術は急速に進歩しており、制御性はエンドユーザにとって実用的なユーザビリティの重要な側面である。
テキスト条件はビデオ合成を誘導する有効な方法であるが, テキスト記述と動画動作の正確な関節分布の把握は依然として大きな課題である。
本稿では,映像合成における複数の動作制御タスクを統一する,アンタングルと統一されたフレームワーク,すなわちI2VControlを提案する。
提案手法では,映像を個々のモーションユニットに分割し,各ユニットをアンタングル制御信号で表現する。
さらに,本手法は事前学習モデルのためのプラグインとしてシームレスに統合され,特定のモデルアーキテクチャに依存しないままである。
多様な制御タスクにおいて優れた性能を達成し,ユーザ主導の創造的組み合わせをさらに促進し,イノベーションと創造性を向上する。
プロジェクトページは以下のとおりである。
関連論文リスト
- ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。
提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文 参考訳(メタデータ) (2025-05-28T23:49:18Z) - TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [7.900728371180723]
TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。
本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。
私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
論文 参考訳(メタデータ) (2025-04-11T00:41:25Z) - DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models [55.42794740244581]
マルチ条件画像生成のためのフレームワークであるDC(Decouple)-ControlNetを紹介する。
DC-ControlNetの背景にある基本的な考え方は、制御条件を分離し、グローバルな制御を階層的なシステムに変換することである。
要素間の相互作用については、Inter-Element Controllerを紹介します。
論文 参考訳(メタデータ) (2025-02-20T18:01:02Z) - Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。
さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - MotionBridge: Dynamic Video Inbetweening with Flexible Controls [29.029643539300434]
我々はMotionBridgeを紹介した。
トラジェクティブストローク、ビデオ編集マスク、ガイドピクセル、テキストビデオなど、柔軟なコントロールが可能だ。
このようなマルチモーダル制御は、よりダイナミックでカスタマイズ可能で、文脈的に正確な視覚的物語を可能にする。
論文 参考訳(メタデータ) (2024-12-17T18:59:33Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - FreeControl: Training-Free Spatial Control of Any Text-to-Image
Diffusion Model with Any Condition [41.92032568474062]
FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。
複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。
トレーニングベースのアプローチで、競争力のある合成品質を実現する。
論文 参考訳(メタデータ) (2023-12-12T18:59:14Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。