論文の概要: Simulating the Visual World with Artificial Intelligence: A Roadmap
- arxiv url: http://arxiv.org/abs/2511.08585v1
- Date: Wed, 12 Nov 2025 02:05:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.874726
- Title: Simulating the Visual World with Artificial Intelligence: A Roadmap
- Title(参考訳): ビジュアルワールドを人工知能でシミュレーションする:ロードマップ
- Authors: Jingtong Yue, Ziqi Huang, Zhaoxi Chen, Xintao Wang, Pengfei Wan, Ziwei Liu,
- Abstract要約: ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
- 参考スコア(独自算出の注目度): 48.64639618440864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The landscape of video generation is shifting, from a focus on generating visually appealing clips to building virtual environments that support interaction and maintain physical plausibility. These developments point toward the emergence of video foundation models that function not only as visual generators but also as implicit world models, models that simulate the physical dynamics, agent-environment interactions, and task planning that govern real or imagined worlds. This survey provides a systematic overview of this evolution, conceptualizing modern video foundation models as the combination of two core components: an implicit world model and a video renderer. The world model encodes structured knowledge about the world, including physical laws, interaction dynamics, and agent behavior. It serves as a latent simulation engine that enables coherent visual reasoning, long-term temporal consistency, and goal-driven planning. The video renderer transforms this latent simulation into realistic visual observations, effectively producing videos as a "window" into the simulated world. We trace the progression of video generation through four generations, in which the core capabilities advance step by step, ultimately culminating in a world model, built upon a video generation model, that embodies intrinsic physical plausibility, real-time multimodal interaction, and planning capabilities spanning multiple spatiotemporal scales. For each generation, we define its core characteristics, highlight representative works, and examine their application domains such as robotics, autonomous driving, and interactive gaming. Finally, we discuss open challenges and design principles for next-generation world models, including the role of agent intelligence in shaping and evaluating these systems. An up-to-date list of related works is maintained at this link.
- Abstract(参考訳): ビデオ生成の展望は、視覚的に魅力的なクリップの生成から、インタラクションをサポートし、物理的な可視性を維持する仮想環境の構築へと変化しつつある。
これらの発展は、ヴィジュアルジェネレータとしてだけでなく、暗黙の世界モデルとしても機能するビデオ基盤モデルの出現、物理力学をシミュレートするモデル、エージェントと環境の相互作用、現実または想像された世界を統治するタスク計画の出現を指している。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを、暗黙の世界モデルとビデオレンダラーの2つのコアコンポーネントの組み合わせとして概念化した。
世界モデルは、物理法則、相互作用力学、エージェント行動を含む世界に関する構造化された知識を符号化する。
これは、コヒーレントな視覚的推論、長期的時間的一貫性、ゴール駆動計画を可能にする潜在シミュレーションエンジンとして機能する。
ビデオレンダラーは、この潜伏シミュレーションをリアルな視覚的な観察に変換し、効果的にシミュレーションされた世界への「窓」としてビデオを生成する。
ビデオ生成モデル上に構築され、本質的な物理的可視性、リアルタイムなマルチモーダルインタラクション、複数の時空間スケールにまたがる計画能力を示す。
各世代ごとに、中核となる特徴を定義し、代表作品のハイライトを行い、ロボット工学、自律運転、インタラクティブゲームなどの応用分野について検討する。
最後に, エージェント・インテリジェンス(エージェント・インテリジェンス, エージェント・インテリジェンス, エージェント・インテリジェンス, エージェント・インテリジェンス, エージェント・インテリジェンス, エージェント・インテリジェンス, エージェント・インテリジェンス, エージェント・インテリジェンス, エージェント・インテリジェンス, エージェント
このリンクでは、関連作品の最新のリストが維持されている。
関連論文リスト
- A Mechanistic View on Video Generation as World Models: State and Dynamics [43.951972667861575]
本研究は、状態構築とダイナミクスモデリングという2つの柱を中心とした新しい分類法を提案する。
これらの課題に対処することで、視野は視覚的に可視なビデオから、堅牢で汎用的な世界シミュレータの構築へと進化することができる。
論文 参考訳(メタデータ) (2026-01-22T19:00:18Z) - Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals [15.286299359279509]
Goal Forceを使えば、明示的な力ベクトルと中間ダイナミクスを使って目標を定義することができる。
我々は、合成因果プリミティブのキュレートされたデータセットに基づいて、ビデオ生成モデルを訓練する。
以上の結果から,映像生成を基礎的な物理相互作用で基礎づけることで,暗黙的な神経物理シミュレータとしてモデルが現れる可能性が示唆された。
論文 参考訳(メタデータ) (2026-01-09T15:23:36Z) - VDAWorld: World Modelling via VLM-Directed Abstraction and Simulation [23.86958300272144]
VDAWorldは、視覚言語モデル(VLM)がインテリジェントなエージェントとして機能し、このプロセスを編成するフレームワークである。
VLMは、一連の視覚ツールから選択することで、グラウンドド(2Dまたは3D)シーン表現を自律的に構築する。
静的なシーンから潜在ダイナミクスを推論して、妥当な将来の状態を予測できる。
論文 参考訳(メタデータ) (2025-12-11T19:21:47Z) - PAN: A World Model for General, Interactable, and Long-Horizon World Simulation [49.805071498152536]
PANは、汎用的で対話性があり、長い水平世界モデルである。
歴史と自然言語のアクションを前提とした高品質なビデオシミュレーションにより、将来の世界の状態を予測します。
実験により, PANは行動条件付き世界シミュレーション, 長期予測, シミュレーション推論において高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-12T07:20:35Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。