論文の概要: DriveVLM-RL: Neuroscience-Inspired Reinforcement Learning with Vision-Language Models for Safe and Deployable Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.18315v1
- Date: Wed, 18 Mar 2026 21:55:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.86429
- Title: DriveVLM-RL: Neuroscience-Inspired Reinforcement Learning with Vision-Language Models for Safe and Deployable Autonomous Driving
- Title(参考訳): DriveVLM-RL: 安全かつデプロイ可能な自律運転のための視覚言語モデルを用いた神経科学による強化学習
- Authors: Zilin Huang, Zihao Sheng, Zhengyang Wan, Yansong Qu, Junwei You, Sicong Jiang, Sikai Chen,
- Abstract要約: DriveVLM-RLは神経科学に触発されたフレームワークで、視覚言語モデルと強化学習を統合する。
このフレームワークは、連続的な空間安全評価のための静的パスに意味報酬学習を分解する。
階層的な報酬合成機構は、セマンティック信号を車両状態と融合させ、非同期トレーニングパイプラインは環境相互作用から高価なVLM推論を分離する。
- 参考スコア(独自算出の注目度): 7.788062051923755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring safe decision-making in autonomous vehicles remains a fundamental challenge despite rapid advances in end-to-end learning approaches. Traditional reinforcement learning (RL) methods rely on manually engineered rewards or sparse collision signals, which fail to capture the rich contextual understanding required for safe driving and make unsafe exploration unavoidable in real-world settings. Recent vision-language models (VLMs) offer promising semantic understanding capabilities; however, their high inference latency and susceptibility to hallucination hinder direct application to real-time vehicle control. To address these limitations, this paper proposes DriveVLM-RL, a neuroscience-inspired framework that integrates VLMs into RL through a dual-pathway architecture for safe and deployable autonomous driving. The framework decomposes semantic reward learning into a Static Pathway for continuous spatial safety assessment using CLIP-based contrasting language goals, and a Dynamic Pathway for attention-gated multi-frame semantic risk reasoning using a lightweight detector and a large VLM. A hierarchical reward synthesis mechanism fuses semantic signals with vehicle states, while an asynchronous training pipeline decouples expensive VLM inference from environment interaction. All VLM components are used only during offline training and are removed at deployment, ensuring real-time feasibility. Experiments in the CARLA simulator show significant improvements in collision avoidance, task success, and generalization across diverse traffic scenarios, including strong robustness under settings without explicit collision penalties. These results demonstrate that DriveVLM-RL provides a practical paradigm for integrating foundation models into autonomous driving without compromising real-time feasibility. Demo video and code are available at: https://zilin-huang.github.io/DriveVLM-RL-website/
- Abstract(参考訳): 自動運転車における安全な意思決定を保証することは、エンドツーエンドの学習アプローチの急速な進歩にもかかわらず、根本的な課題である。
従来の強化学習(RL)手法は手動で設計した報酬やスパース衝突信号に依存しており、安全運転に必要な豊富なコンテキスト理解を捉えることができず、現実世界の環境では安全でない探索が避けられない。
近年の視覚言語モデル(VLM)は有望な意味理解機能を提供しているが、その高い推論遅延と幻覚への感受性は、リアルタイム車両制御への直接的な適用を妨げる。
本稿では,VLMをRLに統合した神経科学的なフレームワークであるDriveVLM-RLを提案する。
このフレームワークは、CLIPに基づくコントラスト言語目標を用いた連続空間安全評価のための静的パスと、軽量検出器と大型VLMを用いた多フレームセマンティックリスク推論のための動的パスに意味論的報酬学習を分解する。
階層的な報酬合成機構は、セマンティック信号を車両状態と融合させ、非同期トレーニングパイプラインは環境相互作用から高価なVLM推論を分離する。
すべてのVLMコンポーネントはオフライントレーニングでのみ使用され、デプロイ時に削除され、リアルタイムの実現性を保証する。
CARLAシミュレータの実験では、衝突回避、タスク成功、様々な交通シナリオにおける一般化の大幅な改善が示されている。
これらの結果から,DriveVLM-RLは,リアルタイムの実現性を損なうことなく,基礎モデルを自律運転に統合するための実践的パラダイムを提供することが示された。
デモビデオとコードは、https://zilin-huang.github.io/DriveVLM-RL-website/で公開されている。
関連論文リスト
- BLIP-FusePPO: A Vision-Language Deep Reinforcement Learning Framework for Lane Keeping in Autonomous Vehicles [0.0]
自律車線維持(LK)のためのマルチモーダル強化学習(RL)のための新しいフレームワークを提案する。
提案手法により,エージェントは周囲を認識し,理解しやすい運転ルールを学習することができる。
セマンティックアライメント、LK精度、障害物回避、速度制御を含むハイブリッド報酬関数は、学習をより効率的で一般化しやすいものにするのに役立つ。
論文 参考訳(メタデータ) (2025-10-25T17:27:08Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving [1.9242820889313577]
強化学習(RL)に基づく自律運転政策学習は、限界に直面している。
RLはしばしば複雑な運転コンテキストにおける「安全」の意味の真の意味をつかむのに失敗する。
本稿では,VLM(Vision-Language Model)-as-as-safety-guidanceパラダイムを用いた世界モデルベースの安全なRLフレームワークであるVL-SAFEを提案する。
論文 参考訳(メタデータ) (2025-05-22T08:29:59Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。