論文の概要: Pre-Trained Video Generative Models as World Simulators
- arxiv url: http://arxiv.org/abs/2502.07825v1
- Date: Mon, 10 Feb 2025 14:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:50:00.874143
- Title: Pre-Trained Video Generative Models as World Simulators
- Title(参考訳): 世界シミュレーターとしての事前学習映像生成モデル
- Authors: Haoran He, Yang Zhang, Liang Lin, Zhongwen Xu, Ling Pan,
- Abstract要約: 本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
- 参考スコア(独自算出の注目度): 59.546627730477454
- License:
- Abstract: Video generative models pre-trained on large-scale internet datasets have achieved remarkable success, excelling at producing realistic synthetic videos. However, they often generate clips based on static prompts (e.g., text or images), limiting their ability to model interactive and dynamic scenarios. In this paper, we propose Dynamic World Simulation (DWS), a novel approach to transform pre-trained video generative models into controllable world simulators capable of executing specified action trajectories. To achieve precise alignment between conditioned actions and generated visual changes, we introduce a lightweight, universal action-conditioned module that seamlessly integrates into any existing model. Instead of focusing on complex visual details, we demonstrate that consistent dynamic transition modeling is the key to building powerful world simulators. Building upon this insight, we further introduce a motion-reinforced loss that enhances action controllability by compelling the model to capture dynamic changes more effectively. Experiments demonstrate that DWS can be versatilely applied to both diffusion and autoregressive transformer models, achieving significant improvements in generating action-controllable, dynamically consistent videos across games and robotics domains. Moreover, to facilitate the applications of the learned world simulator in downstream tasks such as model-based reinforcement learning, we propose prioritized imagination to improve sample efficiency, demonstrating competitive performance compared with state-of-the-art methods.
- Abstract(参考訳): 大規模なインターネットデータセットで事前訓練されたビデオ生成モデルは、リアルな合成ビデオの制作に優れ、驚くべき成功を収めた。
しかし、静的なプロンプト(テキストや画像など)に基づいて、しばしばクリップを生成し、インタラクティブで動的なシナリオをモデル化する能力を制限する。
本稿では,事前学習した映像生成モデルを,特定の行動軌跡を実行できる制御可能な世界シミュレータに変換する新しい手法である動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,既存のモデルにシームレスに統合された軽量で普遍的な動作条件付きモジュールを導入する。
複雑な視覚的な詳細に焦点を当てる代わりに、一貫した動的遷移モデリングが強力な世界シミュレータ構築の鍵であることを実証する。
この知見に基づいて、動的変化をより効果的に捉えるようモデルに促すことにより、動作制御性を高める動き強化損失をさらに導入する。
実験により、DWSは拡散モデルと自己回帰トランスフォーマーモデルの両方に汎用的に適用でき、ゲームやロボティクス領域でアクション制御可能で動的に一貫したビデオを生成する上で、大幅な改善が達成されることが示された。
さらに,モデルに基づく強化学習などの下流タスクにおける学習世界シミュレータの活用を促進するために,サンプル効率の向上や最先端手法と比較しての競合性能の実証を優先的に提案する。
関連論文リスト
- VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - EVA: An Embodied World Model for Future Video Anticipation [42.937348053592636]
複雑なビデオ予測を4つのメタタスクに分解し、世界モデルがこの問題をよりきめ細かな方法で処理できるようにする。
本稿では,Embodied Video Precipation Benchmark (EVA-Bench) という新しいベンチマークを導入する。
本稿では,映像理解と生成を目的とした統合フレームワークであるEmbodied Video Precipator (EVA)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - DiffSRL: Learning Dynamic-aware State Representation for Deformable
Object Control with Differentiable Simulator [26.280021036447213]
ダイナミックス関連情報をキャプチャできる潜在空間は、モデルフリー強化学習の加速のような分野に広く応用されている。
微分可能シミュレーションを利用した動的状態表現学習パイプラインDiffSRLを提案する。
本モデルでは,長期的ダイナミクスと報奨予測の両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-24T04:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。