論文の概要: A Survey of World Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2501.11260v2
- Date: Sun, 16 Feb 2025 03:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:03:32.698378
- Title: A Survey of World Models for Autonomous Driving
- Title(参考訳): 自動運転車の世界モデル調査
- Authors: Tuo Feng, Wenguan Wang, Yi Yang,
- Abstract要約: 自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
- 参考スコア(独自算出の注目度): 63.33363128964687
- License:
- Abstract: Recent breakthroughs in autonomous driving have been propelled by advances in robust world modeling, fundamentally transforming how vehicles interpret dynamic scenes and execute safe decision-making. In particular, world models have emerged as a linchpin technology, offering high-fidelity representations of the driving environment that integrate multi-sensor data, semantic cues, and temporal dynamics. This paper systematically reviews recent advances in world models for autonomous driving, proposing a three-tiered taxonomy: 1) Generation of Future Physical World, covering image-, BEV-, OG-, and PC-based generation methods that enhance scene evolution modeling through diffusion models and 4D occupancy forecasting; 2) Behavior Planning for Intelligent Agents, combining rule-driven and learning-based paradigms with cost map optimization and reinforcement learning for trajectory generation in complex traffic conditions; 3) Interaction Between Prediction and Planning, achieving multi-agent collaborative decision-making through latent space diffusion and memory-augmented architectures. The study further analyzes training paradigms including self-supervised learning, multimodal pretraining, and generative data augmentation, while evaluating world models' performance in scene understanding and motion prediction tasks. Future research must address key challenges in self-supervised representation learning, long-tail scenario generation, and multimodal fusion to advance the practical deployment of world models in complex urban environments. Overall, our comprehensive analysis provides a theoretical framework and technical roadmap for harnessing the transformative potential of world models in advancing safe and reliable autonomous driving solutions.
- Abstract(参考訳): 自動運転車の最近のブレークスルーは、堅牢な世界モデリングの進歩によって推進され、車両がダイナミックなシーンを解釈し、安全な意思決定を実行する方法を根本的に変えた。
特に、世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合した駆動環境の高忠実度表現を提供する、リンチピン技術として登場した。
本稿では, 自律運転の世界モデルにおける最近の進歩を体系的にレビューし, 三段階分類を提唱する。
1 拡散モデル及び4次元占有予測によるシーン進化モデルを強化する画像、BEV、OG、PCベースの生成方法を含む将来の物理世界の生成
2 知的エージェントの行動計画、複雑な交通条件下での軌道生成のためのコストマップ最適化及び強化学習とルール駆動及び学習に基づくパラダイムの組み合わせ
3)予測と計画の相互作用,潜時空間拡散とメモリ拡張アーキテクチャによる複数エージェント協調意思決定の実現
さらに,自己指導型学習,マルチモーダル事前学習,生成データ増強などの学習パラダイムを分析し,シーン理解や動き予測タスクにおける世界モデルの性能を評価した。
今後の研究は、複雑な都市環境における世界モデルの実践的展開を進めるために、自己指導型表現学習、ロングテールシナリオ生成、マルチモーダル融合における重要な課題に対処する必要がある。
包括的分析は、安全で信頼性の高い自動運転ソリューションを進める上で、世界モデルの変革的ポテンシャルを活用するための理論的枠組みと技術的なロードマップを提供する。
関連論文リスト
- DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - Planning-Aware Diffusion Networks for Enhanced Motion Forecasting in Autonomous Driving [0.0]
Planning-Integrated Forecasting Model (PIFM)は、脳における意思決定とマルチエージェント協調を管理する神経機構にインスパイアされた新しいフレームワークである。
PIFMはシナリオ内の全てのエージェントの将来の軌跡を予測することができる。
このアーキテクチャは、外部刺激やその他のエージェントの行動に基づいた予測を動的に調整する脳の手法と平行して、モデルの透明性を高める。
論文 参考訳(メタデータ) (2024-10-25T15:44:51Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - World Models for Autonomous Driving: An Initial Survey [16.448614804069674]
将来の出来事を正確に予測し、その影響を評価する能力は、安全性と効率の両方において最重要である。
世界モデルは変革的なアプローチとして現れており、自律運転システムは大量のセンサーデータを合成し、解釈することができる。
本稿では,自律運転における世界モデルの現状と今後の展開について概説する。
論文 参考訳(メタデータ) (2024-03-05T03:23:55Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - Beyond One Model Fits All: Ensemble Deep Learning for Autonomous
Vehicles [16.398646583844286]
本研究では,Mediated Perception, Behavior Reflex, Direct Perceptionの3つの異なるニューラルネットワークモデルを紹介する。
我々のアーキテクチャは、グローバルなルーティングコマンドを使用して、ベース、将来の潜伏ベクトル予測、補助タスクネットワークからの情報を融合し、適切なアクションサブネットワークを選択する。
論文 参考訳(メタデータ) (2023-12-10T04:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。