論文の概要: DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.00819v1
- Date: Sun, 01 Jun 2025 03:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.67554
- Title: DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving
- Title(参考訳): DriveMind: 自律運転のためのデュアルVLMベースの強化学習フレームワーク
- Authors: Dawood Wasif, Terrence J Moore, Chandan K Reddy, Jin-Hee Cho,
- Abstract要約: DriveMindは、自動運転のためのセマンティック報酬フレームワークである。
平均速度は19.4 +/- 2.3 km/h、経路完了は0.98 +/- 0.03、衝突はゼロに近い。
そのセマンティック報酬は、最小分散シフトでゼロショットから実際のダッシュカムデータを一般化する。
- 参考スコア(独自算出の注目度): 14.988477212106018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving systems map sensor data directly to control commands, but remain opaque, lack interpretability, and offer no formal safety guarantees. While recent vision-language-guided reinforcement learning (RL) methods introduce semantic feedback, they often rely on static prompts and fixed objectives, limiting adaptability to dynamic driving scenes. We present DriveMind, a unified semantic reward framework that integrates: (i) a contrastive Vision-Language Model (VLM) encoder for stepwise semantic anchoring; (ii) a novelty-triggered VLM encoder-decoder, fine-tuned via chain-of-thought (CoT) distillation, for dynamic prompt generation upon semantic drift; (iii) a hierarchical safety module enforcing kinematic constraints (e.g., speed, lane centering, stability); and (iv) a compact predictive world model to reward alignment with anticipated ideal states. DriveMind achieves 19.4 +/- 2.3 km/h average speed, 0.98 +/- 0.03 route completion, and near-zero collisions in CARLA Town 2, outperforming baselines by over 4% in success rate. Its semantic reward generalizes zero-shot to real dash-cam data with minimal distributional shift, demonstrating robust cross-domain alignment and potential for real-world deployment.
- Abstract(参考訳): エンドツーエンドの自動運転システムは、センサーデータを直接制御コマンドにマップするが、不透明であり、解釈性に欠け、正式な安全保証を提供しない。
近年の視覚言語誘導強化学習(RL)手法は意味的フィードバックを導入しているが、静的なプロンプトや固定目的に依存し、動的な運転シーンへの適応性を制限していることが多い。
統合されたセマンティック報酬フレームワークであるDriveMindを紹介します。
一 段階的セマンティックアンカーのための対照的な視覚言語モデル(VLM)エンコーダ
(二)新規トリガーVLMエンコーダ、チェーン・オブ・シント(CoT)蒸留により微調整し、セマンティックドリフト時に動的に生成する。
三 運動的制約(例えば、速度、車線中心、安定性)を強制する階層的安全モジュール
(四)期待される理想状態との整合性に報いるコンパクトな予測的世界モデル。
DriveMindは19.4 +/- 2.3 km/hの平均速度、0.98 +/- 0.03ルート完了、CARLA Town 2でのほぼゼロの衝突を達成し、ベースラインを4%以上上回った。
そのセマンティック報酬は、最小分散シフトでゼロショットから実際のダッシュカムデータを一般化し、堅牢なクロスドメインアライメントと現実のデプロイメントの可能性を示す。
関連論文リスト
- HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving [20.266736153749417]
Vision-Language-Action(VLA)モデルは、マルチモーダル理解を通じて自律運転に有望な機能を提供する。
安全クリティカルなシナリオにおけるそれらの利用は、数値推論、弱い3次元空間認識、文脈に対する高い感度を含む固有の制限によって制限されている。
信頼軌道生成用に設計された階層型時空間VLAモデルであるHiST-VLAを提案する。
論文 参考訳(メタデータ) (2026-02-11T07:08:33Z) - InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation [53.47253633654885]
InstaDriveは、2つの重要な進歩を通じてビデオリアリズムを促進する新しいフレームワークである。
これらのインスタンス認識機構を組み込むことで、InstaDriveは最先端のビデオ生成品質を実現する。
私たちのプロジェクトページはhttps://shanpoyang654.io/InstaDrive/page.htmlです。
論文 参考訳(メタデータ) (2026-02-03T08:22:13Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - Mimir: Hierarchical Goal-Driven Diffusion with Uncertainty Propagation for End-to-End Autonomous Driving [17.533465904228844]
そこで我々は,不確実性推定を伴うゴールポイントに依存するロバストな軌跡を生成可能な,新しい階層型デュアルシステムフレームワークであるMimirを提案する。
Mimirは従来の最先端の手法を20%改善し、ハイレベルなモジュール推論速度の1.6倍の改善を実現している。
論文 参考訳(メタデータ) (2025-12-08T03:31:25Z) - ZTRS: Zero-Imitation End-to-end Autonomous Driving with Trajectory Scoring [52.195295396336526]
ZTRS(Zero-Imitation End-to-End Autonomous Driving with Trajectory Scoring)は、情報を失うことなくセンサー入力と堅牢な計画のためのRLトレーニングという、両方の世界の強みを組み合わせたフレームワークである。
ZTRSは、Navtest、Navhard、HUGSIMの3つのベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-10-28T06:26:36Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - KEPT: Knowledge-Enhanced Prediction of Trajectories from Consecutive Driving Frames with Vision-Language Models [19.625631486595505]
本稿では,知識に富んだ視覚言語フレームワークであるKEPTを紹介する。
連続するフロントビュー駆動フレームから直接エゴ軌道を予測する。
オープンループプロトコル間の最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-03T03:10:42Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [35.493857028919685]
本研究では,視覚言語モデルと拡散プランナを統合した自律運転システムReCogDriveを提案する。
本稿では,大規模運転質問応答データセットを用いてVLMの訓練を行い,汎用コンテンツと実世界の運転シナリオとのドメイン差を緩和する。
第2段階では、拡散型プランナーを用いて模倣学習を行い、潜在言語空間から連続運転行動への表現をマッピングする。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving [19.468567166834585]
リアルタイムの交通信号認識は、都市環境における自動運転の安全性とナビゲーションに不可欠である。
我々は、複数の連続するフレームを処理し、堅牢なトラフィック光検出と状態分類を実現する、ビデオベースの新しいエンドツーエンドニューラルネットワークであるtextitViTLRを提案する。
我々は、自走運転用HDマップを用いて、TextitViTLRをエゴレーン交通信号認識システムに統合することに成功している。
論文 参考訳(メタデータ) (2025-03-31T11:27:48Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。
構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models [9.304973961799359]
視覚言語モデル(VLM)はシナリオ理解の促進に重要な役割を果たしている。
幻覚や現実世界の接地不足といった課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的としたRAC3を提案する。
論文 参考訳(メタデータ) (2024-12-15T04:51:30Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。