論文の概要: Drive-R1: Bridging Reasoning and Planning in VLMs for Autonomous Driving with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.18234v1
- Date: Mon, 23 Jun 2025 01:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.818667
- Title: Drive-R1: Bridging Reasoning and Planning in VLMs for Autonomous Driving with Reinforcement Learning
- Title(参考訳): Drive-R1:強化学習による自律運転のためのVLMにおけるブリッジング推論と計画
- Authors: Yue Li, Meng Tian, Dechang Zhu, Jiangtong Zhu, Zhenyu Lin, Zhiwei Xiong, Xinhai Zhao,
- Abstract要約: 本稿では,自律運転におけるシナリオ推論と動作計画の橋渡しとしてDrive-R1を提案する。
Drive-R1は強化学習フレームワークの中で訓練されており、計画にとってより有益な推論経路の発見を動機付けている。
我々は、Drive-R1がADにおける推論と計画の橋渡しに有望な方向性を示し、将来の研究や応用の方法論的な洞察を提供すると考えている。
- 参考スコア(独自算出の注目度): 38.97689681678924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models (VLMs) for autonomous driving (AD) are evolving beyond perception and cognition tasks toward motion planning. However, we identify two critical challenges in this direction: (1) VLMs tend to learn shortcuts by relying heavily on history input information, achieving seemingly strong planning results without genuinely understanding the visual inputs; and (2) the chain-ofthought (COT) reasoning processes are always misaligned with the motion planning outcomes, and how to effectively leverage the complex reasoning capability to enhance planning remains largely underexplored. In this paper, we start from a small-scale domain-specific VLM and propose Drive-R1 designed to bridges the scenario reasoning and motion planning for AD. Drive-R1 first undergoes the supervised finetuning on a elaborate dataset containing both long and short COT data. Drive-R1 is encouraged to reason step-by-step from visual input to final planning decisions. Subsequently, Drive-R1 is trained within a reinforcement learning framework that incentivizes the discovery of reasoning paths that are more informative for planning, guided by rewards based on predicted trajectories and meta actions. Experimental evaluations on the nuScenes and DriveLM-nuScenes benchmarks demonstrate that Drive-R1 achieves superior performance compared to existing state-of-the-art VLMs. We believe that Drive-R1 presents a promising direction for bridging reasoning and planning in AD, offering methodological insights for future research and applications.
- Abstract(参考訳): 自律運転(AD)のための大規模視覚言語モデル(VLM)は、知覚や認知タスクを超えて、運動計画へと進化している。
しかし,本研究の課題は,(1)履歴入力情報に大きく依存し,視覚的な入力を真に理解せずに,一見強靭な計画結果を達成する傾向にあること,(2)チェーン・オブ・思想(COT)推論プロセスが常に動作計画結果と一致していないこと,そして,計画強化のための複雑な推論能力を効果的に活用する方法が明らかにされていないこと,の2つである。
本稿では、小規模なドメイン固有VLMから始め、ADのシナリオ推論とモーションプランニングを橋渡しするDrive-R1を提案する。
Drive-R1は、長いCOTデータと短いCOTデータの両方を含む精巧なデータセットで教師付き微調整を行う。
Drive-R1は視覚的な入力から最終的な計画決定まで段階的に推論することが推奨される。
その後、Drive-R1は強化学習フレームワーク内で訓練され、予測された軌跡とメタアクションに基づいて報酬によって導かれる計画にとってより有益な推論経路の発見を動機付ける。
nuScenesとDriveLM-nuScenesベンチマークの実験により、Drive-R1は既存の最先端VLMよりも優れた性能を発揮することが示された。
我々は、Drive-R1がADにおける推論と計画の橋渡しに有望な方向性を示し、将来の研究や応用の方法論的な洞察を提供すると考えている。
関連論文リスト
- Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [75.83583076519311]
Plan-R1は、軌道計画を逐次予測タスクとして定式化する、新しい2段階の軌道計画フレームワークである。
第1段階では,専門家データに基づく次の動きトークン予測により,自己回帰軌道予測器を訓練する。
第2段階では、規則に基づく報酬(衝突回避、速度制限など)を設計し、グループ相対政策最適化を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - LiloDriver: A Lifelong Learning Framework for Closed-loop Motion Planning in Long-tail Autonomous Driving Scenarios [23.913788819453796]
LiloDriverは、ロングテール自動運転シナリオにおけるクローズドループモーションプランニングのための生涯学習フレームワークである。
知覚、シーンエンコーディング、メモリベースの戦略改善、LLM誘導推論を含む4段階アーキテクチャを備えている。
本研究は、構造化メモリとLCM推論を組み合わせることで、現実の自律運転において、スケーラブルで人間ライクな動作計画を可能にすることの有効性を強調した。
論文 参考訳(メタデータ) (2025-05-22T18:33:08Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model [17.133104189287714]
WiseADは、推論、オブジェクト認識、リスク分析、運転提案、軌道計画を駆動できる特殊な視覚言語モデルである。
我々は、知識と計画データセットを駆動する共同トレーニングを採用し、モデルが知識に整合した軌道計画を実行できるようにする。
運転知識の多様性が拡大するにつれて、重大な事故が顕著に減少し、運転スコアと経路完成度が11.9%、12.4%向上した。
論文 参考訳(メタデータ) (2024-12-13T08:14:24Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。