論文の概要: I2VControl: Disentangled and Unified Video Motion Synthesis Control
- arxiv url: http://arxiv.org/abs/2411.17765v2
- Date: Sat, 30 Nov 2024 04:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 13:35:56.020179
- Title: I2VControl: Disentangled and Unified Video Motion Synthesis Control
- Title(参考訳): I2VControl: アンタングル・統一ビデオモーション合成制御
- Authors: Wanquan Feng, Tianhao Qi, Jiawei Liu, Mingzhen Sun, Pengqi Tu, Tianxiang Ma, Fei Dai, Songtao Zhao, Siyu Zhou, Qian He,
- Abstract要約: I2VControlは,映像合成における複数の動作制御タスクを統一するフレームワークである。
提案手法では,映像を個々のモーションユニットに分割し,各ユニットをアンタングル制御信号で表現する。
我々の方法論は、事前訓練されたモデルのためのプラグインとしてシームレスに統合され、特定のモデルアーキテクチャに依存しないままです。
- 参考スコア(独自算出の注目度): 11.83645633418189
- License:
- Abstract: Video synthesis techniques are undergoing rapid progress, with controllability being a significant aspect of practical usability for end-users. Although text condition is an effective way to guide video synthesis, capturing the correct joint distribution between text descriptions and video motion remains a substantial challenge. In this paper, we present a disentangled and unified framework, namely I2VControl, that unifies multiple motion control tasks in image-to-video synthesis. Our approach partitions the video into individual motion units and represents each unit with disentangled control signals, which allows for various control types to be flexibly combined within our single system. Furthermore, our methodology seamlessly integrates as a plug-in for pre-trained models and remains agnostic to specific model architectures. We conduct extensive experiments, achieving excellent performance on various control tasks, and our method further facilitates user-driven creative combinations, enhancing innovation and creativity. The project page is: https://wanquanf.github.io/I2VControl .
- Abstract(参考訳): ビデオ合成技術は急速に進歩しており、制御性はエンドユーザにとって実用的なユーザビリティの重要な側面である。
テキスト条件はビデオ合成を誘導する有効な方法であるが, テキスト記述と動画動作の正確な関節分布の把握は依然として大きな課題である。
本稿では,映像合成における複数の動作制御タスクを統一する,アンタングルと統一されたフレームワーク,すなわちI2VControlを提案する。
提案手法では,映像を個々のモーションユニットに分割し,各ユニットをアンタングル制御信号で表現する。
さらに,本手法は事前学習モデルのためのプラグインとしてシームレスに統合され,特定のモデルアーキテクチャに依存しないままである。
多様な制御タスクにおいて優れた性能を達成し,ユーザ主導の創造的組み合わせをさらに促進し,イノベーションと創造性を向上する。
プロジェクトページは以下のとおりである。
関連論文リスト
- MovieCharacter: A Tuning-Free Framework for Controllable Character Video Synthesis [15.285708761869415]
MovieCharacterは、文字ビデオ合成のためのチューニング不要のフレームワークである。
我々のフレームワークは、合成タスクを別々に管理可能なモジュールに分解します。
既存のオープンソースモデルを活用し、確立されたテクニックを統合することで、MovieCharacterは印象的な合成結果を達成する。
論文 参考訳(メタデータ) (2024-10-28T12:46:05Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。