論文の概要: ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.20024v1
- Date: Mon, 26 May 2025 14:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.497932
- Title: ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving
- Title(参考訳): ReasonPlan: クローズドループ自動運転のための一貫したシーン予測と決定推論
- Authors: Xueyi Liu, Zuodong Zhong, Yuxin Guo, Yun-Fu Liu, Zhiguo Su, Qichao Zhang, Junli Wang, Yinfeng Gao, Yupeng Zheng, Qiao Lin, Huiyong Chen, Dongbin Zhao,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、エンドツーエンド(E2E)自動運転の分野で大きな注目を集めている。
本稿では,包括的推論による閉ループ運転のためのMLLMファインチューニングフレームワークReasonPlanを提案する。
本手法は,Bench2Driveベンチマークにおいて,19%のL2と16.1の駆動スコアでE2E模倣学習法より優れていた。
- 参考スコア(独自算出の注目度): 12.035324146676555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the powerful vision-language reasoning and generalization abilities, multimodal large language models (MLLMs) have garnered significant attention in the field of end-to-end (E2E) autonomous driving. However, their application to closed-loop systems remains underexplored, and current MLLM-based methods have not shown clear superiority to mainstream E2E imitation learning approaches. In this work, we propose ReasonPlan, a novel MLLM fine-tuning framework designed for closed-loop driving through holistic reasoning with a self-supervised Next Scene Prediction task and supervised Decision Chain-of-Thought process. This dual mechanism encourages the model to align visual representations with actionable driving context, while promoting interpretable and causally grounded decision making. We curate a planning-oriented decision reasoning dataset, namely PDR, comprising 210k diverse and high-quality samples. Our method outperforms the mainstream E2E imitation learning method by a large margin of 19% L2 and 16.1 driving score on Bench2Drive benchmark. Furthermore, ReasonPlan demonstrates strong zero-shot generalization on unseen DOS benchmark, highlighting its adaptability in handling zero-shot corner cases. Code and dataset will be found in https://github.com/Liuxueyi/ReasonPlan.
- Abstract(参考訳): 強力な視覚言語推論と一般化能力のため、マルチモーダル大規模言語モデル(MLLM)はエンドツーエンド(E2E)自動運転の分野で大きな注目を集めている。
しかし、クローズドループシステムへの応用は未検討であり、現在のMLLM法は主流のE2E模倣学習手法よりも明確な優位性を示していない。
本研究では,自己教師型Next Scene Predictionタスクと教師型Decision Chain-of-Thoughtプロセスを用いて,クローズドループ運転のための新しいMLLMファインチューニングフレームワークであるReasonPlanを提案する。
この二重メカニズムは、視覚的表現を行動可能な運転コンテキストと整合させ、解釈可能かつ因果的根拠に基づく意思決定を促進する。
210万の多様性と高品質なサンプルからなる計画指向意思決定推論データセット、すなわちPDRをキュレートする。
本手法は,Bench2Driveベンチマークにおいて,19%のL2と16.1の駆動スコアでE2E模倣学習法より優れていた。
さらに、ReasonPlanは、見えないDOSベンチマークに対して強力なゼロショット一般化を示し、ゼロショットコーナーケースを扱う際の適応性を強調している。
コードとデータセットはhttps://github.com/Liuxueyi/ReasonPlan.orgにある。
関連論文リスト
- Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models [9.316712964093506]
視覚言語モデル(VLM)は自律運転の約束を示すが、安全にとって重要な透明な推論能力は欠如していることが多い。
微調整中の推論を明示的にモデル化することで、運転決定タスクにおけるVLM性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2025-04-14T23:16:07Z) - ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation [44.16465715911478]
視覚言語による行動生成による総合的E2E自律運転フレームワークORIONを提案する。
本手法は,Bench2Driveデータセットの課題に対して,77.74 Driving Score (DS) と54.62%の成功率 (SR) の顕著なクローズループ性能を実現する。
論文 参考訳(メタデータ) (2025-03-25T15:18:43Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - DualAD: Dual-Layer Planning for Reasoning in Autonomous Driving [1.8434042562191815]
運転中の人間の推論を模倣する新しい自動運転フレームワークであるDualADを提案する。
DualADは、ルールベースのモーションプランナとルールベースのテキストエンコーダを備えた上位レイヤの2つのレイヤで構成されている。
論文 参考訳(メタデータ) (2024-09-26T16:58:04Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。