論文の概要: DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.00819v1
- Date: Sun, 01 Jun 2025 03:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.67554
- Title: DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving
- Title(参考訳): DriveMind: 自律運転のためのデュアルVLMベースの強化学習フレームワーク
- Authors: Dawood Wasif, Terrence J Moore, Chandan K Reddy, Jin-Hee Cho,
- Abstract要約: DriveMindは、自動運転のためのセマンティック報酬フレームワークである。
平均速度は19.4 +/- 2.3 km/h、経路完了は0.98 +/- 0.03、衝突はゼロに近い。
そのセマンティック報酬は、最小分散シフトでゼロショットから実際のダッシュカムデータを一般化する。
- 参考スコア(独自算出の注目度): 14.988477212106018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving systems map sensor data directly to control commands, but remain opaque, lack interpretability, and offer no formal safety guarantees. While recent vision-language-guided reinforcement learning (RL) methods introduce semantic feedback, they often rely on static prompts and fixed objectives, limiting adaptability to dynamic driving scenes. We present DriveMind, a unified semantic reward framework that integrates: (i) a contrastive Vision-Language Model (VLM) encoder for stepwise semantic anchoring; (ii) a novelty-triggered VLM encoder-decoder, fine-tuned via chain-of-thought (CoT) distillation, for dynamic prompt generation upon semantic drift; (iii) a hierarchical safety module enforcing kinematic constraints (e.g., speed, lane centering, stability); and (iv) a compact predictive world model to reward alignment with anticipated ideal states. DriveMind achieves 19.4 +/- 2.3 km/h average speed, 0.98 +/- 0.03 route completion, and near-zero collisions in CARLA Town 2, outperforming baselines by over 4% in success rate. Its semantic reward generalizes zero-shot to real dash-cam data with minimal distributional shift, demonstrating robust cross-domain alignment and potential for real-world deployment.
- Abstract(参考訳): エンドツーエンドの自動運転システムは、センサーデータを直接制御コマンドにマップするが、不透明であり、解釈性に欠け、正式な安全保証を提供しない。
近年の視覚言語誘導強化学習(RL)手法は意味的フィードバックを導入しているが、静的なプロンプトや固定目的に依存し、動的な運転シーンへの適応性を制限していることが多い。
統合されたセマンティック報酬フレームワークであるDriveMindを紹介します。
一 段階的セマンティックアンカーのための対照的な視覚言語モデル(VLM)エンコーダ
(二)新規トリガーVLMエンコーダ、チェーン・オブ・シント(CoT)蒸留により微調整し、セマンティックドリフト時に動的に生成する。
三 運動的制約(例えば、速度、車線中心、安定性)を強制する階層的安全モジュール
(四)期待される理想状態との整合性に報いるコンパクトな予測的世界モデル。
DriveMindは19.4 +/- 2.3 km/hの平均速度、0.98 +/- 0.03ルート完了、CARLA Town 2でのほぼゼロの衝突を達成し、ベースラインを4%以上上回った。
そのセマンティック報酬は、最小分散シフトでゼロショットから実際のダッシュカムデータを一般化し、堅牢なクロスドメインアライメントと現実のデプロイメントの可能性を示す。
関連論文リスト
- SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving [19.468567166834585]
リアルタイムの交通信号認識は、都市環境における自動運転の安全性とナビゲーションに不可欠である。
我々は、複数の連続するフレームを処理し、堅牢なトラフィック光検出と状態分類を実現する、ビデオベースの新しいエンドツーエンドニューラルネットワークであるtextitViTLRを提案する。
我々は、自走運転用HDマップを用いて、TextitViTLRをエゴレーン交通信号認識システムに統合することに成功している。
論文 参考訳(メタデータ) (2025-03-31T11:27:48Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。
構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models [9.304973961799359]
視覚言語モデル(VLM)はシナリオ理解の促進に重要な役割を果たしている。
幻覚や現実世界の接地不足といった課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的としたRAC3を提案する。
論文 参考訳(メタデータ) (2024-12-15T04:51:30Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。