Fugu-MT 論文翻訳(概要): Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms

論文の概要: Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms

arxiv url: http://arxiv.org/abs/2603.28489v2
Date: Mon, 04 May 2026 04:34:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 06:56:26.379282
Title: Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms
Title（参考訳）: 世界モデルとしての映像生成モデル:効率的なパラダイム、アーキテクチャ、アルゴリズム
Authors: Muyang He, Hanzhong Guo, Junxiong Lin, Yizhou Yu,
Abstract要約: 我々は,効率的なモデリングパラダイム,効率的なネットワークアーキテクチャ,効率的な推論アルゴリズムという,新しい分類法を3次元で導入する。我々は、効率性は、ビデオジェネレータを汎用的でリアルタイムで堅牢な世界シミュレータに進化させるための基本的な前提条件であると主張している。
参考スコア（独自算出の注目度）: 38.36274291662335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid evolution of video generation has enabled models to simulate complex physical dynamics and long-horizon causalities, positioning them as potential world simulators. However, a critical gap still remains between the theoretical capacity for world simulation and the heavy computational costs of spatiotemporal modeling. To address this, we comprehensively and systematically review video generation frameworks and techniques that consider efficiency as a crucial requirement for practical world modeling. We introduce a novel taxonomy in three dimensions: efficient modeling paradigms, efficient network architectures, and efficient inference algorithms. We further show that bridging this efficiency gap directly empowers interactive applications such as autonomous driving, embodied AI, and game simulation. Finally, we identify emerging research frontiers in efficient video-based world modeling, arguing that efficiency is a fundamental prerequisite for evolving video generators into general-purpose, real-time, and robust world simulators.
Abstract（参考訳）: ビデオ生成の急速な進化により、複雑な物理力学と長い水平因果関係をシミュレートし、それらが潜在的な世界シミュレータとして位置づけられるようになった。しかし、世界シミュレーションの理論的能力と時空間モデリングの計算コストの間には、依然として重要なギャップが残っている。そこで本研究では,実世界のモデリングにおいて,効率を重要な要件とする映像生成フレームワークや手法を包括的かつ体系的にレビューする。我々は,効率的なモデリングパラダイム,効率的なネットワークアーキテクチャ,効率的な推論アルゴリズムという,新しい分類法を3次元で導入する。さらに、この効率ギャップを埋めることによって、自律運転、具体的AI、ゲームシミュレーションといったインタラクティブなアプリケーションに直接力を与えることを示す。最後に、効率的なビデオベース世界モデリングにおける新たな研究フロンティアを特定し、効率性は、ビデオジェネレータを汎用的でリアルタイムで堅牢な世界シミュレータに進化させるための基本的な前提条件であると主張した。

関連論文リスト

ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation [90.4702774169675]
本稿では,古典シミュレーションとニューラルシミュレーションを組み合わせた合成シミュレーションというハイブリッド手法を提案する。提案手法では,少数の実世界のデータを活用するクローズドループ・リアル・シモン・リアル・データ拡張パイプラインを利用する。我々はニューラルシミュレーターをトレーニングし、古典的なシミュレーションビデオを現実世界の表現に変換し、現実の環境で訓練されたポリシーモデルの精度を向上させる。
論文参考訳（メタデータ） (2026-04-13T12:25:45Z)
ReWorld: Multi-Dimensional Reward Modeling for Embodied World Models [27.729654985554372]
ReWorldは、強化学習を活用して、物理リアリズム、タスク完了能力、実施可能性、視覚的品質をビデオベースで具現化した世界モデルと整合させることを目的としたフレームワークである。本研究では,ReWorldが生成したロールアウトの物理的忠実度,論理的コヒーレンス,具体化,視覚的品質を著しく改善し,従来の方法よりも優れていたことを示す。
論文参考訳（メタデータ） (2026-01-18T14:27:10Z)
Neural Motion Simulator: Pushing the Limit of World Models in Reinforcement Learning [11.762260966376125]
モーションダイナミクスモデルは、効率的なスキル獲得と効果的なプランニングに不可欠である。本稿では,脳神経運動シミュレータ (MoSim) を紹介する。 MoSimは物理状態予測において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-09T17:59:32Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。本稿では,この2つの技術の関係について検討する。映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文参考訳（メタデータ） (2024-11-05T08:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。