論文の概要: ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2507.12499v1
- Date: Wed, 16 Jul 2025 02:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.213497
- Title: ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving
- Title(参考訳): ReAL-AD: エンド・ツー・エンド自動運転における人間ライクな推論を目指して
- Authors: Yuhang Lu, Jiadong Tu, Yuexin Ma, Xinge Zhu,
- Abstract要約: エンドツーエンドの自動運転は、単一のフレームワーク内で認識、予測、計画を統合するための有望なアプローチとして現れています。
本稿では,3階層の認知モデルに基づいて自律運転における意思決定を構造化するReAL-ADを提案する。
我々のフレームワークを統合することで、計画の正確さと安全性が30%以上向上し、エンドツーエンドの自動運転がより解釈可能になり、人間のような階層的推論に適合することを示します。
- 参考スコア(独自算出の注目度): 27.75047397292818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving has emerged as a promising approach to unify perception, prediction, and planning within a single framework, reducing information loss and improving adaptability. However, existing methods often rely on fixed and sparse trajectory supervision, limiting their ability to capture the hierarchical reasoning process that human drivers naturally employ. To bridge this gap, we propose ReAL-AD, a Reasoning-Augmented Learning framework that structures decision-making in autonomous driving based on the three-tier human cognitive model: Driving Strategy, Driving Decision, and Driving Operation, where Vision-Language Models (VLMs) are incorporated to enhance situational awareness and structured reasoning across these levels. Specifically, we introduce: (1) the Strategic Reasoning Injector, which formulates high-level driving strategies by interpreting complex traffic contexts from VLM-generated insights; (2) the Tactical Reasoning Integrator, which refines strategic intent into interpretable tactical choices such as lane changes, overtaking, and speed adjustments; and (3) the Hierarchical Trajectory Decoder, which progressively translates tactical decisions into precise control actions for smooth and human-like trajectory execution. Extensive evaluations show that integrating our framework improves planning accuracy and safety by over 30%, making end-to-end autonomous driving more interpretable and aligned with human-like hierarchical reasoning. The project page can be found at: \href{https://4dvlab.github.io/project_page/realad}{\texttt{4dvlab.github.io/project\_page/realad}}
- Abstract(参考訳): エンドツーエンドの自動運転は、知覚、予測、計画を単一のフレームワークに統合し、情報損失を低減し、適応性を向上させるための有望なアプローチとして現れてきた。
しかし、既存の手法は固定軌跡の監督に頼り、人間のドライバーが自然に採用する階層的推論過程を捉える能力を制限している。
このギャップを埋めるために,3階層の認知モデルに基づく自律運転における意思決定を構造化する推論学習フレームワークであるReAL-ADを提案する。
具体的には,(1)複雑な交通状況をVLMから解釈することで高レベルの運転戦略を定式化するストラテジック推論インジェクタ,(2)車線変更やオーバーテイク,速度調整などの戦術的選択に戦略的意図を洗練する戦術推論インジェクタ,(3)戦術的決定をスムーズかつ人間的な軌道実行のための正確な制御行動に段階的に翻訳する階層的軌道デコーダを紹介する。
大規模な評価では、我々のフレームワークを統合することで、計画の精度と安全性が30%以上向上し、エンドツーエンドの自動運転がより解釈可能になり、人間のような階層的推論と整合することが示されている。
プロジェクトページは以下の通りである。 \href{https://4dvlab.github.io/project_page/realad}{\textt{4dvlab.github.io/project\_page/realad}}
関連論文リスト
- CogAD: Cognitive-Hierarchy Guided End-to-End Autonomous Driving [6.110160289067008]
我々は,人間の運転者の階層的認知機構をエミュレートする,新しいエンドツーエンドの自律運転モデルであるCogADを提案する。
CogADは、人間のような知覚のためのグローバルからローカルまでのコンテキスト処理と、認知に着想を得た計画のための意図条件付き多モード軌道生成という、二重階層的なメカニズムを実装している。
CogADは、エンド・ツー・エンドの計画において最先端のパフォーマンスを達成し、ロングテールのシナリオにおいて特に優位性を示し、複雑な現実世界の運転条件に対する堅牢な一般化を示す。
論文 参考訳(メタデータ) (2025-05-27T09:58:43Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Transferable and Adaptable Driving Behavior Prediction [34.606012573285554]
本研究では,運転行動に対して高品質で伝達可能で適応可能な予測を生成する階層型フレームワークであるHATNを提案する。
我々は,交差点における実交通データの軌跡予測と,インターActionデータセットからのラウンドアバウンドのタスクにおいて,我々のアルゴリズムを実証する。
論文 参考訳(メタデータ) (2022-02-10T16:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。