論文の概要: MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.13636v2
- Date: Tue, 16 Dec 2025 10:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.997512
- Title: MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning
- Title(参考訳): MindDrive:オンライン強化学習による自律運転のためのビジョンランゲージ・アクションモデル
- Authors: Haoyu Fu, Diankun Zhang, Zongchuang Zhao, Jianfeng Cui, Hongwei Xie, Bing Wang, Guang Chen, Dingkang Liang, Xiang Bai,
- Abstract要約: 自律運転における現在のビジョン・ランゲージ・アクション(VLA)パラダイムは主に模倣学習(IL)に依存している
オンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。
大規模言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。
軌道レベルの報酬を推論空間に戻すことで、MindDriveは、限定的な言語駆動決定の有限セットに対する試行錯誤学習を可能にする。
- 参考スコア(独自算出の注目度): 51.20229133553804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Vision-Language-Action (VLA) paradigms in autonomous driving primarily rely on Imitation Learning (IL), which introduces inherent challenges such as distribution shift and causal confusion. Online Reinforcement Learning offers a promising pathway to address these issues through trial-and-error learning. However, applying online reinforcement learning to VLA models in autonomous driving is hindered by inefficient exploration in continuous action spaces. To overcome this limitation, we propose MindDrive, a VLA framework comprising a large language model (LLM) with two distinct sets of LoRA parameters. The one LLM serves as a Decision Expert for scenario reasoning and driving decision-making, while the other acts as an Action Expert that dynamically maps linguistic decisions into feasible trajectories. By feeding trajectory-level rewards back into the reasoning space, MindDrive enables trial-and-error learning over a finite set of discrete linguistic driving decisions, instead of operating directly in a continuous action space. This approach effectively balances optimal decision-making in complex scenarios, human-like driving behavior, and efficient exploration in online reinforcement learning. Using the lightweight Qwen-0.5B LLM, MindDrive achieves Driving Score (DS) of 78.04 and Success Rate (SR) of 55.09% on the challenging Bench2Drive benchmark. To the best of our knowledge, this is the first work to demonstrate the effectiveness of online reinforcement learning for the VLA model in autonomous driving.
- Abstract(参考訳): 現在の自動運転におけるVLA(Vision-Language-Action)パラダイムは、主にImitation Learning(IL)に依存している。
オンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。
しかし、自律運転におけるVLAモデルへのオンライン強化学習の適用は、連続行動空間における非効率な探索によって妨げられる。
この制限を克服するために,大きな言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。
1つはシナリオ推論と意思決定の推進のための決定エキスパートとして機能し、もう1つは動的に言語決定を実行可能な軌道にマッピングするアクションエキスパートとして機能する。
軌道レベルの報酬を推論空間に戻すことで、MindDriveは、連続的なアクション空間で直接操作するのではなく、有限個の個別言語駆動決定に対して試行錯誤学習を可能にする。
このアプローチは、複雑なシナリオにおける最適な意思決定、人間のような運転行動、オンライン強化学習における効率的な探索とを効果的にバランスさせる。
軽量のQwen-0.5B LLMを使用して、MindDriveは78.04のドライビングスコア(DS)と55.09%の成功率(SR)を挑戦的なBench2Driveベンチマークで達成した。
我々の知る限りでは、自動運転におけるVLAモデルに対するオンライン強化学習の有効性を示す最初の研究である。
関連論文リスト
- AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving [71.55254573283793]
既存のアプローチでは、Large Language Modelsを頻繁に起動し、過剰な計算オーバーヘッドを引き起こすか、固定スケジュールを使用するかのいずれかである。
我々は,LLMが意思決定にいつ,どのように貢献するかを最適に決定する,適応的に協調的なスローファストフレームワークであるAdaDriveを提案する。
AdaDriveは、リアルタイムのパフォーマンスを損なうことなく、意思決定の精度を最大化するフレキシブルでコンテキスト対応のフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-09T07:05:03Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking [13.898774643126174]
LeapVADは、運転決定に影響を及ぼす重要な交通要素を特定し、焦点を合わせるための人間中心のメカニズムを実装している。
システムは、論理的推論を通じて駆動経験を蓄積する分析プロセス(System-II)と、微調整と少数ショット学習によってこの知識を洗練するヒューリスティックプロセス(System-I)から構成される。
論文 参考訳(メタデータ) (2025-01-14T14:49:45Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Receive, Reason, and React: Drive as You Say with Large Language Models
in Autonomous Vehicles [13.102404404559428]
本稿では,Large Language Models (LLMs) を利用した自律走行車における意思決定プロセスを強化する新しいフレームワークを提案する。
我々の研究は、自動運転と戦術的意思決定タスクのための環境の集合であるHighwayEnvの実験を含む。
また、リアルタイムのパーソナライズも検討し、LLMが音声コマンドに基づいて運転行動にどう影響するかを示す。
論文 参考訳(メタデータ) (2023-10-12T04:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。