論文の概要: Vid2World: Crafting Video Diffusion Models to Interactive World Models
- arxiv url: http://arxiv.org/abs/2505.14357v2
- Date: Sat, 27 Sep 2025 01:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.335049
- Title: Vid2World: Crafting Video Diffusion Models to Interactive World Models
- Title(参考訳): Vid2World:インタラクティブな世界モデルにビデオ拡散モデルを構築する
- Authors: Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long,
- Abstract要約: 我々は、トレーニング済みの動画拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチであるVid2Worldを紹介する。
本手法は,高機能な映像拡散モデルをインタラクティブな世界モデルに再利用するための,スケーラブルで効果的な経路を提供する。
- 参考スコア(独自算出の注目度): 35.42362065437052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models, which predict future transitions from past observation and action sequences, have shown great promise for improving data efficiency in sequential decision-making. However, existing world models often require extensive domain-specific training and still produce low-fidelity, coarse predictions, limiting their usefulness in complex environments. In contrast, video diffusion models trained on large-scale internet data have demonstrated impressive capabilities in generating high-quality videos that capture diverse real-world dynamics. In this work, we present Vid2World, a general approach for leveraging and transferring pre-trained video diffusion models into interactive world models. To bridge the gap, Vid2World systematically explores video diffusion causalization, reshaping both the architecture and training objective of pre-trained models to enable autoregressive generation. Additionally, it incorporates a causal action guidance mechanism to enhance action controllability in the resulting interactive world models. Extensive experiments across multiple domains, including robot manipulation, 3D game simulation, and open-world navigation, demonstrate that our method offers a scalable and effective pathway for repurposing highly capable video diffusion models into interactive world models.
- Abstract(参考訳): 過去の観測と行動シーケンスから将来の遷移を予測する世界モデルは、シーケンシャルな意思決定におけるデータ効率を改善する大きな可能性を示してきた。
しかし、既存の世界モデルは、しばしば広範囲なドメイン固有の訓練を必要とし、それでも低忠実で粗い予測を生成し、複雑な環境におけるそれらの有用性を制限している。
対照的に、大規模なインターネットデータに基づいてトレーニングされたビデオ拡散モデルは、様々な現実世界のダイナミクスをキャプチャする高品質なビデオを生成する素晴らしい能力を示してきた。
本稿では,事前学習した映像拡散モデルをインタラクティブな世界モデルに活用し,伝達するための一般的なアプローチであるVid2Worldを紹介する。
ギャップを埋めるために、Vid2Worldはビデオ拡散因果関係を体系的に探求し、事前訓練されたモデルのアーキテクチャとトレーニングの目的を再構築し、自己回帰生成を可能にする。
さらに、結果として生じる対話的世界モデルにおけるアクション制御性を高めるための因果的行動誘導機構も組み込まれている。
ロボット操作,3Dゲームシミュレーション,オープンワールドナビゲーションなど,多分野にわたる大規模な実験により,我々の手法は,高機能な映像拡散モデルをインタラクティブな世界モデルに再利用するためのスケーラブルで効果的な経路を提供することを示した。
関連論文リスト
- AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - AVID: Adapting Video Diffusion Models to World Models [10.757223474031248]
我々は,事前学習されたモデルのパラメータにアクセスすることなく,事前学習された映像拡散モデルを行動条件付き世界モデルに適用することを提案する。
AVIDは学習マスクを使用して、事前訓練されたモデルの中間出力を変更し、正確なアクション条件のビデオを生成する。
AVIDをゲームや実世界のロボットデータ上で評価し,既存の拡散モデル適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T13:48:31Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Diffusion for World Modeling: Visual Details Matter in Atari [22.915802013352465]
拡散世界モデルで訓練された強化学習エージェントであるDIAMOND(DIffusion As a Model of eNvironment Dreams)を紹介する。
我々は,世界モデリングに適した拡散を実現する上で必要となる重要な設計選択を解析し,視覚的詳細の改善がエージェントの性能向上にどのように寄与するかを実証する。
DIAMONDは競争力のあるAtari 100kベンチマークで平均1.46の人間正規化スコアを達成している。
論文 参考訳(メタデータ) (2024-05-20T22:51:05Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。