Fugu-MT 論文翻訳(概要): TIV-Diffusion: Towards Object-Centric Movement for Text-driven Image to Video Generation

論文の概要: TIV-Diffusion: Towards Object-Centric Movement for Text-driven Image to Video Generation

arxiv url: http://arxiv.org/abs/2412.10275v2
Date: Mon, 16 Dec 2024 03:32:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 13:40:10.457046
Title: TIV-Diffusion: Towards Object-Centric Movement for Text-driven Image to Video Generation
Title（参考訳）: TIV拡散:テキスト駆動画像から映像生成へのオブジェクト中心運動に向けて
Authors: Xingrui Wang, Xin Li, Yaosi Hu, Hanxin Zhu, Chen Hou, Cuiling Lan, Zhibo Chen,
Abstract要約: テキスト駆動映像生成(TI2V)は、第1フレームと対応するテキスト記述が与えられた制御可能なビデオを生成することを目的としている。本稿では,オブジェクト中心のテキスト・ビジュアルアライメントを通じて,TIV-Diffusionと呼ばれる新しい拡散型TI2Vフレームワークを提案する。我々のTIV-Diffusionは、既存のTI2V法と比較して最先端の高品質ビデオ生成を実現する。
参考スコア（独自算出の注目度）: 31.43081425504501
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-driven Image to Video Generation (TI2V) aims to generate controllable video given the first frame and corresponding textual description. The primary challenges of this task lie in two parts: (i) how to identify the target objects and ensure the consistency between the movement trajectory and the textual description. (ii) how to improve the subjective quality of generated videos. To tackle the above challenges, we propose a new diffusion-based TI2V framework, termed TIV-Diffusion, via object-centric textual-visual alignment, intending to achieve precise control and high-quality video generation based on textual-described motion for different objects. Concretely, we enable our TIV-Diffuion model to perceive the textual-described objects and their motion trajectory by incorporating the fused textual and visual knowledge through scale-offset modulation. Moreover, to mitigate the problems of object disappearance and misaligned objects and motion, we introduce an object-centric textual-visual alignment module, which reduces the risk of misaligned objects/motion by decoupling the objects in the reference image and aligning textual features with each object individually. Based on the above innovations, our TIV-Diffusion achieves state-of-the-art high-quality video generation compared with existing TI2V methods.
Abstract（参考訳）: テキスト駆動映像生成(TI2V)は、第1フレームと対応するテキスト記述が与えられた制御可能なビデオを生成することを目的としている。このタスクの主な課題は2つあります。一対象物を識別し、運動軌跡とテキスト記述との整合性を確保する方法。 (II)生成したビデオの主観的品質を改善する方法。上記の課題に対処するために,オブジェクト中心のテキスト-視覚アライメントを介し,TIV-Diffusionと呼ばれる拡散型TI2Vフレームワークを提案する。具体的には, TIV-Diffuionモデルを用いて, スケールオフセット変調により, 融合したテキストと視覚的知識を組み込むことで, テキスト記述対象とその運動軌跡を知覚することができる。さらに,物体の消失や不一致な物体や動きの問題を緩和するために,オブジェクト中心のテキスト・ビジュアル・アライメント・モジュールを導入し,参照画像内の物体を分離し,個々の物体とテキストの特徴を一致させることにより,不一致な物体・動きのリスクを低減する。以上のイノベーションに基づいて,既存のTI2V法と比較して,最先端の高品質ビデオ生成を実現している。

関連論文リスト

Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-18T15:56:46Z)
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。 I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文参考訳（メタデータ） (2025-01-06T14:49:26Z)
VAST 1.0: A Unified Framework for Controllable and Consistent Video Generation [48.318567065609216]
VAST(Video As Storyboard from Text)は、テキスト記述から高品質なビデオを生成するためのフレームワークである。映像生成からテキスト理解を分離することにより、VASTは主題のダイナミクスやシーン構成を正確に制御できる。 VBenchベンチマークの実験では、VASTは視覚的品質とセマンティック表現の両方において、既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-12-21T15:59:07Z)
Referring Video Object Segmentation via Language-aligned Track Selection [30.226373787454833]
Referring Video Object (RVOS)は、自然言語表現に基づいて、ビデオ全体を通してオブジェクトをセグメント化しようとする。不整合マスクトラックは、視覚言語アライメントを妨害し、最適以下のパフォーマンスをもたらす。我々は、RVOSを2つのサブプロブレム、トラック生成とトラック選択に再構成する新しいフレームワークであるSelection by Object Language Alignment (SOLA)を提案する。
論文参考訳（メタデータ） (2024-12-02T05:20:35Z)
Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文参考訳（メタデータ） (2024-06-25T17:59:41Z)
HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文参考訳（メタデータ） (2024-06-11T22:31:29Z)
HumanTOMATO: Text-aligned Whole-body Motion Generation [30.729975715600627]
本研究は,新しいテキスト駆動型全身運動生成タスクを目標とする。高品質で多様な、一貫性のある表情、手のジェスチャー、身体の動きを同時に生成することを目的としている。
論文参考訳（メタデータ） (2023-10-19T17:59:46Z)
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文参考訳（メタデータ） (2023-05-23T09:03:19Z)
Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文参考訳（メタデータ） (2022-10-06T12:43:07Z)
Make It Move: Controllable Image-to-Video Generation with Text Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文参考訳（メタデータ） (2021-12-06T07:00:36Z)
O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning [41.14313691818424]
ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。 O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。 MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
論文参考訳（メタデータ） (2021-08-05T04:17:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。