論文の概要: TV2TV: A Unified Framework for Interleaved Language and Video Generation
- arxiv url: http://arxiv.org/abs/2512.05103v1
- Date: Thu, 04 Dec 2025 18:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.334164
- Title: TV2TV: A Unified Framework for Interleaved Language and Video Generation
- Title(参考訳): TV2TV: インターリーブ言語とビデオ生成のための統一フレームワーク
- Authors: Xiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan,
- Abstract要約: ビデオ生成をインターリーブテキストとビデオ生成プロセスに分解する統合生成モデリングフレームワークであるTV2TVについて述べる。
TV2TVはMixture-of-Transformers (MoT)アーキテクチャを用いて言語モデリング(次世代の予測)とビデオフローマッチング(次世代の予測)を共同で学習する。
ビデオゲームデータに関する実験では、TV2TVは視覚的品質と制御性の両方において大幅に改善されている。
- 参考スコア(独自算出の注目度): 77.09723449347798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.
- Abstract(参考訳): ビデオ生成モデルは急速に進歩しているが、重要なセマンティックブランチを必要とする複雑なビデオ出力や、次に何が起こるべきかという高レベルな推論に苦戦する可能性がある。
本稿では,この課題に対処するために,最近のLM推論の進歩からアイデアを取り入れたオムニビデオテキストモデルを新たに導入する。
より具体的には、ビデオ生成をインターリーブされたテキストとビデオ生成プロセスに分解する統合生成モデリングフレームワークであるTV2TVを紹介する。
TV2TVはMixture-of-Transformers (MoT)アーキテクチャを用いて言語モデリング(次世代の予測)とビデオフローマッチング(次世代の予測)を共同で学習する。
推測時に、TV2TVは、いつテキストとビデオのフレームを交互に生成するかを決め、モデルが「ピクセルで実行する」前に、後続のコンテンツについて「言葉で考える」ことができる。
この設計は、言語モデリングタワーの横で何が起こるかを決定する責任の多くをオフロードし、視覚的品質を改善し、生成されたビデオのアライメントを迅速に行えるようにする。
また、きめ細かい制御が可能で、ユーザーはプロセスのどの時点でもテキストの介入によってビデオ生成の軌跡を変更できる。
ビデオゲームデータに対する制御実験では、TV2TVは視覚的品質と制御性の両方において大幅に改善されている。
TV2TVはまた、視覚言語モデル(VLM)を使用して、インターリーブされた自然言語アクション記述でスポーツビデオを拡張することで、自然ビデオにスケールする。
このコーパス上でのTV2TVのトレーニングは、強力な視覚的品質と迅速なアライメントをもたらし、モデルが複雑な実世界のアクションシーケンスを推論し生成する能力を示す。
これらの結果とともに、TV2TVは、オープンなテキスト推論と制御によるビデオ生成に向けた有望なステップとして強調されている。
関連論文リスト
- We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback [5.743225523680124]
現在のテキスト・ツー・ビデオ(T2V)生成モデルは、より長く複雑なプロンプトを扱う際に意味的かつ時間的に一貫したビデオを生成するのに苦労している。
ニューロS-Eは、ニューロシンボリックフィードバックを利用してビデオ生成を自動的に強化する、新しいゼロトレーニングビデオリファインメントパイプラインである。
提案手法は,まず,形式的ビデオ表現と意味的に一貫性のないイベント,オブジェクト,およびそれに対応するフレームをピンポイントで解析することにより,ニューロシンボリックフィードバックを導出する。
論文 参考訳(メタデータ) (2025-04-24T01:34:12Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。