論文の概要: Drive-R1: Bridging Reasoning and Planning in VLMs for Autonomous Driving with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.18234v1
- Date: Mon, 23 Jun 2025 01:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.818667
- Title: Drive-R1: Bridging Reasoning and Planning in VLMs for Autonomous Driving with Reinforcement Learning
- Title(参考訳): Drive-R1:強化学習による自律運転のためのVLMにおけるブリッジング推論と計画
- Authors: Yue Li, Meng Tian, Dechang Zhu, Jiangtong Zhu, Zhenyu Lin, Zhiwei Xiong, Xinhai Zhao,
- Abstract要約: 本稿では,自律運転におけるシナリオ推論と動作計画の橋渡しとしてDrive-R1を提案する。
Drive-R1は強化学習フレームワークの中で訓練されており、計画にとってより有益な推論経路の発見を動機付けている。
我々は、Drive-R1がADにおける推論と計画の橋渡しに有望な方向性を示し、将来の研究や応用の方法論的な洞察を提供すると考えている。
- 参考スコア(独自算出の注目度): 38.97689681678924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models (VLMs) for autonomous driving (AD) are evolving beyond perception and cognition tasks toward motion planning. However, we identify two critical challenges in this direction: (1) VLMs tend to learn shortcuts by relying heavily on history input information, achieving seemingly strong planning results without genuinely understanding the visual inputs; and (2) the chain-ofthought (COT) reasoning processes are always misaligned with the motion planning outcomes, and how to effectively leverage the complex reasoning capability to enhance planning remains largely underexplored. In this paper, we start from a small-scale domain-specific VLM and propose Drive-R1 designed to bridges the scenario reasoning and motion planning for AD. Drive-R1 first undergoes the supervised finetuning on a elaborate dataset containing both long and short COT data. Drive-R1 is encouraged to reason step-by-step from visual input to final planning decisions. Subsequently, Drive-R1 is trained within a reinforcement learning framework that incentivizes the discovery of reasoning paths that are more informative for planning, guided by rewards based on predicted trajectories and meta actions. Experimental evaluations on the nuScenes and DriveLM-nuScenes benchmarks demonstrate that Drive-R1 achieves superior performance compared to existing state-of-the-art VLMs. We believe that Drive-R1 presents a promising direction for bridging reasoning and planning in AD, offering methodological insights for future research and applications.
- Abstract(参考訳): 自律運転(AD)のための大規模視覚言語モデル(VLM)は、知覚や認知タスクを超えて、運動計画へと進化している。
しかし,本研究の課題は,(1)履歴入力情報に大きく依存し,視覚的な入力を真に理解せずに,一見強靭な計画結果を達成する傾向にあること,(2)チェーン・オブ・思想(COT)推論プロセスが常に動作計画結果と一致していないこと,そして,計画強化のための複雑な推論能力を効果的に活用する方法が明らかにされていないこと,の2つである。
本稿では、小規模なドメイン固有VLMから始め、ADのシナリオ推論とモーションプランニングを橋渡しするDrive-R1を提案する。
Drive-R1は、長いCOTデータと短いCOTデータの両方を含む精巧なデータセットで教師付き微調整を行う。
Drive-R1は視覚的な入力から最終的な計画決定まで段階的に推論することが推奨される。
その後、Drive-R1は強化学習フレームワーク内で訓練され、予測された軌跡とメタアクションに基づいて報酬によって導かれる計画にとってより有益な推論経路の発見を動機付ける。
nuScenesとDriveLM-nuScenesベンチマークの実験により、Drive-R1は既存の最先端VLMよりも優れた性能を発揮することが示された。
我々は、Drive-R1がADにおける推論と計画の橋渡しに有望な方向性を示し、将来の研究や応用の方法論的な洞察を提供すると考えている。
関連論文リスト
- ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving [27.75047397292818]
エンドツーエンドの自動運転は、単一のフレームワーク内で認識、予測、計画を統合するための有望なアプローチとして現れています。
本稿では,3階層の認知モデルに基づいて自律運転における意思決定を構造化するReAL-ADを提案する。
我々のフレームワークを統合することで、計画の正確さと安全性が30%以上向上し、エンドツーエンドの自動運転がより解釈可能になり、人間のような階層的推論に適合することを示します。
論文 参考訳(メタデータ) (2025-07-16T02:23:24Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [75.83583076519311]
Plan-R1は、軌道計画を逐次予測タスクとして定式化する、新しい2段階の軌道計画フレームワークである。
第1段階では,専門家データに基づく次の動きトークン予測により,自己回帰軌道予測器を訓練する。
第2段階では、規則に基づく報酬(衝突回避、速度制限など)を設計し、グループ相対政策最適化を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - LiloDriver: A Lifelong Learning Framework for Closed-loop Motion Planning in Long-tail Autonomous Driving Scenarios [23.913788819453796]
LiloDriverは、ロングテール自動運転シナリオにおけるクローズドループモーションプランニングのための生涯学習フレームワークである。
知覚、シーンエンコーディング、メモリベースの戦略改善、LLM誘導推論を含む4段階アーキテクチャを備えている。
本研究は、構造化メモリとLCM推論を組み合わせることで、現実の自律運転において、スケーラブルで人間ライクな動作計画を可能にすることの有効性を強調した。
論文 参考訳(メタデータ) (2025-05-22T18:33:08Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。
DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文 参考訳(メタデータ) (2025-02-14T18:43:15Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model [17.133104189287714]
WiseADは、推論、オブジェクト認識、リスク分析、運転提案、軌道計画を駆動できる特殊な視覚言語モデルである。
我々は、知識と計画データセットを駆動する共同トレーニングを採用し、モデルが知識に整合した軌道計画を実行できるようにする。
運転知識の多様性が拡大するにつれて、重大な事故が顕著に減少し、運転スコアと経路完成度が11.9%、12.4%向上した。
論文 参考訳(メタデータ) (2024-12-13T08:14:24Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Deep Structured Reactive Planning [94.92994828905984]
自動運転のための新しいデータ駆動型リアクティブ計画目標を提案する。
本モデルは,非常に複雑な操作を成功させる上で,非反応性変種よりも優れることを示す。
論文 参考訳(メタデータ) (2021-01-18T01:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。