論文の概要: $AutoDrive\text{-}P^3$: Unified Chain of Perception-Prediction-Planning Thought via Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2603.28116v1
- Date: Mon, 30 Mar 2026 07:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.276086
- Title: $AutoDrive\text{-}P^3$: Unified Chain of Perception-Prediction-Planning Thought via Reinforcement Fine-Tuning
- Title(参考訳): $AutoDrive\text{-}P^3$: Reinforcement Fine-Tuningによる知覚-予測-計画思考の統一チェイン
- Authors: Yuqi Ye, Zijian Zhang, Junhong Lin, Shangkun Sun, Changhao Peng, Wei Gao,
- Abstract要約: いくつかの視覚言語モデル(VLM)は、チェーン・オブ・ソート(CoT)推論なしで直接計画結果を出力する。
OtherVLMは、知覚、予測、計画タスクのための出力を生成するが、断片化された意思決定アプローチを採用する。
構造化推論による$textbfP$erception, $textbfP$rediction, $textbfP$lanningをシームレスに統合する新しいフレームワークである$Drivetext-P3$を提案する。
- 参考スコア(独自算出の注目度): 17.985934958482563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly being adopted for end-to-end autonomous driving systems due to their exceptional performance in handling long-tail scenarios. However, current VLM-based approaches suffer from two major limitations: 1) Some VLMs directly output planning results without chain-of-thought (CoT) reasoning, bypassing crucial perception and prediction stages which creates a significant domain gap and compromises decision-making capability; 2) Other VLMs can generate outputs for perception, prediction, and planning tasks but employ a fragmented decision-making approach where these modules operate separately, leading to a significant lack of synergy that undermines true planning performance. To address these limitations, we propose ${AutoDrive\text{-}P^3}$, a novel framework that seamlessly integrates $\textbf{P}$erception, $\textbf{P}$rediction, and $\textbf{P}$lanning through structured reasoning. We introduce the ${P^3\text{-}CoT}$ dataset to facilitate coherent reasoning and propose ${P^3\text{-}GRPO}$, a hierarchical reinforcement learning algorithm that provides progressive supervision across all three tasks. Specifically, ${AutoDrive\text{-}P^3}$ progressively generates CoT reasoning and answers for perception, prediction, and planning, where perception provides essential information for subsequent prediction and planning, while both perception and prediction collectively contribute to the final planning decisions, enabling safer and more interpretable autonomous driving. Additionally, to balance inference efficiency with performance, we introduce dual thinking modes: detailed thinking and fast thinking. Extensive experiments on both open-loop (nuScenes) and closed-loop (NAVSIMv1/v2) benchmarks demonstrate that our approach achieves state-of-the-art performance in planning tasks. Code is available at https://github.com/haha-yuki-haha/AutoDrive-P3.
- Abstract(参考訳): 視覚言語モデル(VLM)は、ロングテールシナリオの処理における例外的な性能のため、エンド・ツー・エンドの自動運転システムに採用されつつある。
しかしながら、現在のVLMベースのアプローチには2つの大きな制限がある。
1)一部のVLMは、重要な認識や予測段階を回避し、重要な領域のギャップを生じ、意思決定能力を損なうような、チェーン・オブ・ソート(CoT)推論なしで計画結果を直接出力する。
2) 他のVLMでは, 認識, 予測, 計画タスクのアウトプットを生成できるが, これらのモジュールが個別に機能する断片的な意思決定アプローチを採用しており, 真の計画性能を損なう相乗効果が著しく欠如している。
これらの制限に対処するために、${AutoDrive\text{-}P^3}$という、構造化推論による$\textbf{P}$erception、$\textbf{P}$rediction、$\textbf{P}$lanningをシームレスに統合する新しいフレームワークを提案する。
本稿では,コヒーレント推論を容易にするために,${P^3\text{-}CoT}$データセットを導入し,階層的強化学習アルゴリズムである${P^3\text{-}GRPO}$を提案する。
具体的には、${AutoDrive\text{-}P^3}$は、認識、予測、計画のためのCoT推論と回答を段階的に生成する。
さらに、推論効率と性能のバランスをとるために、詳細な思考と高速思考という2つの思考モードを導入します。
オープンループ (nuScenes) とクローズドループ (NAVSIMv1/v2) のベンチマークによる大規模な実験により, 提案手法が計画作業における最先端性能を達成することを示す。
コードはhttps://github.com/haha-yuki-haha/AutoDrive-P3で公開されている。
関連論文リスト
- ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving [44.008287454538596]
視覚言語モデル(VLM)は、クロスモーダルな先行とコモンセンス推論を導入することで、このパラダイムを豊かにする。
現在のVLMベースのプランナは、(i) 個別のテキスト推論と継続的制御のミスマッチ、(ii) 自己回帰的連鎖のデコーディングからの高い遅延、(iii) リアルタイムデプロイメントを制限する非効率または非因果的なプランナである。
テキストから潜在空間へ推論を転送し,それを階層的並列軌道デコーダで結合する統合視覚言語アクションフレームワークColaVLAを提案する。
論文 参考訳(メタデータ) (2025-12-28T14:06:37Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving [26.169506297338234]
マルチモーダル大規模言語モデル(MLLM)は、エンドツーエンド(E2E)自動運転の分野で大きな注目を集めている。
本稿では,包括的推論による閉ループ運転のためのMLLMファインチューニングフレームワークReasonPlanを提案する。
本手法は,Bench2Driveベンチマークにおいて,19%のL2と16.1の駆動スコアでE2E模倣学習法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T14:12:38Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation [11.011219709863875]
我々はSparseDriveという新しいエンドツーエンドの自動運転パラダイムを提案する。
SparseDriveは対称なスパース認識モジュールとパラレルモーションプランナーで構成されている。
動作予測と計画について,これら2つの課題の相似性を概観し,運動プランナの並列設計に繋がる。
論文 参考訳(メタデータ) (2024-05-30T02:13:56Z) - Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。
フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文 参考訳(メタデータ) (2022-12-20T10:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。