論文の概要: Vid2World: Crafting Video Diffusion Models to Interactive World Models
- arxiv url: http://arxiv.org/abs/2505.14357v1
- Date: Tue, 20 May 2025 13:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.267176
- Title: Vid2World: Crafting Video Diffusion Models to Interactive World Models
- Title(参考訳): Vid2World:インタラクティブな世界モデルにビデオ拡散モデルを構築する
- Authors: Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long,
- Abstract要約: Vid2Worldは、トレーニング済みのビデオ拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチである。
自己回帰生成を可能にするために、そのアーキテクチャとトレーニング目標を構築することにより、事前訓練されたビデオ拡散モデルのカジュアル化を行う。
対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
- 参考スコア(独自算出の注目度): 38.270098691244314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models, which predict transitions based on history observation and action sequences, have shown great promise in improving data efficiency for sequential decision making. However, existing world models often require extensive domain-specific training and still produce low-fidelity, coarse predictions, limiting their applicability in complex environments. In contrast, video diffusion models trained on large, internet-scale datasets have demonstrated impressive capabilities in generating high-quality videos that capture diverse real-world dynamics. In this work, we present Vid2World, a general approach for leveraging and transferring pre-trained video diffusion models into interactive world models. To bridge the gap, Vid2World performs casualization of a pre-trained video diffusion model by crafting its architecture and training objective to enable autoregressive generation. Furthermore, it introduces a causal action guidance mechanism to enhance action controllability in the resulting interactive world model. Extensive experiments in robot manipulation and game simulation domains show that our method offers a scalable and effective approach for repurposing highly capable video diffusion models to interactive world models.
- Abstract(参考訳): 歴史観測と行動シーケンスに基づいて遷移を予測する世界モデルは、シーケンシャルな意思決定のためのデータ効率を改善することに大きな期待を示している。
しかし、既存の世界モデルは、しばしば広範囲なドメイン固有のトレーニングを必要とし、それでも低忠実で粗い予測を生成し、複雑な環境での適用性を制限する。
対照的に、大規模なインターネットスケールのデータセットでトレーニングされたビデオ拡散モデルは、さまざまな現実世界のダイナミクスをキャプチャする高品質なビデオを生成する素晴らしい能力を示している。
本稿では,事前学習した映像拡散モデルをインタラクティブな世界モデルに活用し,伝達するための一般的なアプローチであるVid2Worldを紹介する。
ギャップを埋めるために、Vid2Worldは、アーキテクチャとトレーニング目標を構築し、自己回帰生成を可能にすることによって、事前訓練されたビデオ拡散モデルのカジュアル化を行う。
さらに,対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
ロボット操作とゲームシミュレーション領域における大規模な実験により,インタラクティブな世界モデルに高度に機能するビデオ拡散モデルを再利用するためのスケーラブルで効果的な手法が提案されている。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - AVID: Adapting Video Diffusion Models to World Models [10.757223474031248]
我々は,事前学習されたモデルのパラメータにアクセスすることなく,事前学習された映像拡散モデルを行動条件付き世界モデルに適用することを提案する。
AVIDは学習マスクを使用して、事前訓練されたモデルの中間出力を変更し、正確なアクション条件のビデオを生成する。
AVIDをゲームや実世界のロボットデータ上で評価し,既存の拡散モデル適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T13:48:31Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。