論文の概要: Learning World Models for Interactive Video Generation
- arxiv url: http://arxiv.org/abs/2505.21996v1
- Date: Wed, 28 May 2025 05:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.430787
- Title: Learning World Models for Interactive Video Generation
- Title(参考訳): インタラクティブビデオ生成のための世界モデル学習
- Authors: Taiye Chen, Xun Hu, Zihan Ding, Chi Jin,
- Abstract要約: 我々は、アクションコンディショニングと自動回帰フレームワークにより、インタラクティブな機能を備えた映像間モデルを強化する。
そこで本稿では, 長期のコンプレックスエラーを著しく低減するグローバルな条件付きビデオ検索拡張生成(VRAG)を提案する。
我々の研究は、内部世界モデリング機能を備えたビデオ生成モデルを改善するための包括的なベンチマークを確立する。
- 参考スコア(独自算出の注目度): 21.028685555298292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundational world models must be both interactive and preserve spatiotemporal coherence for effective future planning with action choices. However, present models for long video generation have limited inherent world modeling capabilities due to two main challenges: compounding errors and insufficient memory mechanisms. We enhance image-to-video models with interactive capabilities through additional action conditioning and autoregressive framework, and reveal that compounding error is inherently irreducible in autoregressive video generation, while insufficient memory mechanism leads to incoherence of world models. We propose video retrieval augmented generation (VRAG) with explicit global state conditioning, which significantly reduces long-term compounding errors and increases spatiotemporal consistency of world models. In contrast, naive autoregressive generation with extended context windows and retrieval-augmented generation prove less effective for video generation, primarily due to the limited in-context learning capabilities of current video models. Our work illuminates the fundamental challenges in video world models and establishes a comprehensive benchmark for improving video generation models with internal world modeling capabilities.
- Abstract(参考訳): 基本世界モデルは対話的であり、行動選択による効果的な将来の計画のための時空間コヒーレンスを保存する必要がある。
しかし,現在のビデオ生成モデルでは,エラーの複合化とメモリ機構の不足という2つの大きな課題により,固有世界モデリング機能に制限がある。
我々は、アクションコンディショニングと自己回帰フレームワークにより、インタラクティブな機能を備えた映像間モデルを強化し、コンプレッションエラーが自己回帰ビデオ生成において本質的に不可避であることを明らかにし、一方、メモリ機構の不足が世界モデルの不整合を招いた。
本稿では,グローバルな条件付けを明示したビデオ検索拡張生成(VRAG)を提案し,長期のコンプレックスエラーを著しく低減し,世界モデルの時空間的一貫性を高める。
対照的に、拡張コンテキストウインドウと検索拡張ジェネレーションによるナイーブ自動回帰生成は、主に現在のビデオモデルのコンテキスト内学習能力に制限があるため、ビデオ生成にはあまり効果がない。
我々の研究は、ビデオワールドモデルの基本課題を照らし、内部世界モデリング機能を備えたビデオ生成モデルを改善するための総合的なベンチマークを確立する。
関連論文リスト
- Vid2World: Crafting Video Diffusion Models to Interactive World Models [38.270098691244314]
Vid2Worldは、トレーニング済みのビデオ拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチである。
自己回帰生成を可能にするために、そのアーキテクチャとトレーニング目標を構築することにより、事前訓練されたビデオ拡散モデルのカジュアル化を行う。
対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - The Dawn of Video Generation: Preliminary Explorations with SORA-like Models [14.528428430884015]
テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、ビデオ・トゥ・ビデオ(V2V)生成を含む高品質なビデオ生成は、コンテンツ作成においてかなりの重要性を持っている。
SORAのようなモデルでは、高解像度、より自然な動き、より良い視覚言語アライメント、コントロール可能性の向上といった高度なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-10-07T17:35:10Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。