論文の概要: TIV-Diffusion: Towards Object-Centric Movement for Text-driven Image to Video Generation
- arxiv url: http://arxiv.org/abs/2412.10275v2
- Date: Mon, 16 Dec 2024 03:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:56.914031
- Title: TIV-Diffusion: Towards Object-Centric Movement for Text-driven Image to Video Generation
- Title(参考訳): TIV拡散:テキスト駆動画像から映像生成へのオブジェクト中心運動に向けて
- Authors: Xingrui Wang, Xin Li, Yaosi Hu, Hanxin Zhu, Chen Hou, Cuiling Lan, Zhibo Chen,
- Abstract要約: テキスト駆動映像生成(TI2V)は、第1フレームと対応するテキスト記述が与えられた制御可能なビデオを生成することを目的としている。
本稿では,オブジェクト中心のテキスト・ビジュアルアライメントを通じて,TIV-Diffusionと呼ばれる新しい拡散型TI2Vフレームワークを提案する。
我々のTIV-Diffusionは、既存のTI2V法と比較して最先端の高品質ビデオ生成を実現する。
- 参考スコア(独自算出の注目度): 31.43081425504501
- License:
- Abstract: Text-driven Image to Video Generation (TI2V) aims to generate controllable video given the first frame and corresponding textual description. The primary challenges of this task lie in two parts: (i) how to identify the target objects and ensure the consistency between the movement trajectory and the textual description. (ii) how to improve the subjective quality of generated videos. To tackle the above challenges, we propose a new diffusion-based TI2V framework, termed TIV-Diffusion, via object-centric textual-visual alignment, intending to achieve precise control and high-quality video generation based on textual-described motion for different objects. Concretely, we enable our TIV-Diffuion model to perceive the textual-described objects and their motion trajectory by incorporating the fused textual and visual knowledge through scale-offset modulation. Moreover, to mitigate the problems of object disappearance and misaligned objects and motion, we introduce an object-centric textual-visual alignment module, which reduces the risk of misaligned objects/motion by decoupling the objects in the reference image and aligning textual features with each object individually. Based on the above innovations, our TIV-Diffusion achieves state-of-the-art high-quality video generation compared with existing TI2V methods.
- Abstract(参考訳): テキスト駆動映像生成(TI2V)は、第1フレームと対応するテキスト記述が与えられた制御可能なビデオを生成することを目的としている。
このタスクの主な課題は2つあります。
一 対象物を識別し、運動軌跡とテキスト記述との整合性を確保する方法。
(II)生成したビデオの主観的品質を改善する方法。
上記の課題に対処するために,オブジェクト中心のテキスト-視覚アライメントを介し,TIV-Diffusionと呼ばれる拡散型TI2Vフレームワークを提案する。
具体的には, TIV-Diffuionモデルを用いて, スケールオフセット変調により, 融合したテキストと視覚的知識を組み込むことで, テキスト記述対象とその運動軌跡を知覚することができる。
さらに,物体の消失や不一致な物体や動きの問題を緩和するために,オブジェクト中心のテキスト・ビジュアル・アライメント・モジュールを導入し,参照画像内の物体を分離し,個々の物体とテキストの特徴を一致させることにより,不一致な物体・動きのリスクを低減する。
以上のイノベーションに基づいて,既存のTI2V法と比較して,最先端の高品質ビデオ生成を実現している。
関連論文リスト
- Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - HumanTOMATO: Text-aligned Whole-body Motion Generation [30.729975715600627]
本研究は,新しいテキスト駆動型全身運動生成タスクを目標とする。
高品質で多様な、一貫性のある表情、手のジェスチャー、身体の動きを同時に生成することを目的としている。
論文 参考訳(メタデータ) (2023-10-19T17:59:46Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - Text-Driven Stylization of Video Objects [22.82818481936432]
ユーザが指定したテキストプロンプトに従って,映像オブジェクトを直感的・意味的にスタイリングする作業に取り組む。
本手法は2つのターゲットテキストに基づいてビデオ中のオブジェクトをスタイリングする。
提案手法は,様々なオブジェクトやビデオに対して,時間とともに一貫したスタイル変化を生成できることを実証する。
論文 参考訳(メタデータ) (2022-06-24T17:53:20Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z) - O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable
Video Captioning [41.14313691818424]
ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。
O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。
MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
論文 参考訳(メタデータ) (2021-08-05T04:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。