論文の概要: Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges
- arxiv url: http://arxiv.org/abs/2603.09086v1
- Date: Tue, 10 Mar 2026 01:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.938599
- Title: Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges
- Title(参考訳): 自律運転のための潜在世界モデル:統一分類学、評価フレームワーク、オープンチャレンジ
- Authors: Rongxiang Zeng, Yongqi Dong,
- Abstract要約: 本稿では,自動走行のための世界モデルの最近の進歩を生かした,一貫したラテント空間フレームワークを提案する。
このフレームワークは、ラテント表現(ラテント・ワールド、ラテント・アクション、ラテント・ジェネレータ、連続状態、離散トークン、ハイブリッド)と幾何学、トポロジー、セマンティクスの構造的先行によって設計空間を整理する。
- 参考スコア(独自算出の注目度): 2.76240219662896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging generative world models and vision-language-action (VLA) systems are rapidly reshaping automated driving by enabling scalable simulation, long-horizon forecasting, and capability-rich decision making. Across these directions, latent representations serve as the central computational substrate: they compress high-dimensional multi-sensor observations, enable temporally coherent rollouts, and provide interfaces for planning, reasoning, and controllable generation. This paper proposes a unifying latent-space framework that synthesizes recent progress in world models for automated driving. The framework organizes the design space by the target and form of latent representations (latent worlds, latent actions, latent generators; continuous states, discrete tokens, and hybrids) and by structural priors for geometry, topology, and semantics. Building on this taxonomy, the paper articulates five cross-cutting internal mechanics (i.e, structural isomorphism, long-horizon temporal stability, semantic and reasoning alignment, value-aligned objectives and post-training, as well as adaptive computation and deliberation) and connects these design choices to robustness, generalization, and deployability. The work also proposes concrete evaluation prescriptions, including a closed-loop metric suite and a resource-aware deliberation cost, designed to reduce the open-loop / closed-loop mismatch. Finally, the paper identifies actionable research directions toward advancing latent world model for decision-ready, verifiable, and resource-efficient automated driving.
- Abstract(参考訳): 新たな生成的世界モデルと視覚言語アクション(VLA)システムは、スケーラブルなシミュレーション、長期予測、能力豊富な意思決定を可能にして、自動化運転を迅速に再構築している。
それらは高次元のマルチセンサー観測を圧縮し、時間的に一貫性のあるロールアウトを可能にし、計画、推論、制御可能な生成のためのインターフェースを提供する。
本稿では,自動走行のための世界モデルの最近の進歩を生かした,一貫したラテント空間フレームワークを提案する。
このフレームワークは、ラテント表現(ラテント・ワールド、ラテント・アクション、ラテント・ジェネレータ、連続状態、離散トークン、ハイブリッド)と幾何学、トポロジー、セマンティクスの構造的先行によって設計空間を整理する。
この分類に基づいて、本論文は5つの横断的内部力学(構造的同型、長期的時間的安定性、意味と推論の整合性、価値に整合した目的と後学習、および適応的な計算と熟考)を記述し、これらの設計選択を堅牢性、一般化、展開可能性に結びつける。
また、クローズドループ計量スイートや、クローズドループ/クローズドループミスマッチを減らすために設計されたリソースを意識した検討コストなど、具体的な評価基準も提案している。
最後に、意思決定可能・検証可能・資源効率の高い自動運転のための潜在世界モデルに向けた実用的な研究の方向性を明らかにした。
関連論文リスト
- Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving [8.391716372682316]
車両キネマティック情報は観測エンコーダに組み込まれ、物理的に意味のある運動力学における潜伏遷移を基底とする。
ジオメトリ・アウェアの監督は、RSSM潜時状態を規則化し、ピクセル再構成を超えてタスク関連空間構造をキャプチャする。
論文 参考訳(メタデータ) (2026-03-07T15:47:54Z) - Specification-Driven Generation and Evaluation of Discrete-Event World Models via the DEVS Formalism [9.578714623643291]
我々は,明示的なシミュレータの信頼性と学習モデルの柔軟性を両立させる原理的な中間層を求める。
我々は、自然言語仕様から直接合成された明示的で実行可能な離散的世界モデルを提案する。
論文 参考訳(メタデータ) (2026-03-04T06:50:32Z) - Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems [75.78934957242403]
自動運転車とドローンは、マルチモーダル搭載センサーデータから真の空間情報を必要とする。
本稿では,この目標に向かって進む中核的な技術群を同定し,マルチモーダル・プレトレーニングのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:58:01Z) - A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文 参考訳(メタデータ) (2025-10-19T07:12:32Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。