論文の概要: VLM-AutoDrive: Post-Training Vision-Language Models for Safety-Critical Autonomous Driving Events
- arxiv url: http://arxiv.org/abs/2603.18178v1
- Date: Wed, 18 Mar 2026 18:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.797511
- Title: VLM-AutoDrive: Post-Training Vision-Language Models for Safety-Critical Autonomous Driving Events
- Title(参考訳): VLM-AutoDrive:安全クリティカルな自動運転イベントのためのトレーニング後のビジョンランゲージモデル
- Authors: Mohammad Qazim Bhat, Yufan Huang, Niket Agarwal, Hao Wang, Michael Woods, John Kenyon, Tsung-Yi Lin, Xiaodong Yang, Ming-Yu Liu, Kevin Xie,
- Abstract要約: VLM-AutoDrive(VLM-AutoDrive)は、トレーニング済みの視覚言語モデルを高忠実度異常検出に適用するためのモジュラーフレームワークである。
NVIDIAのCosmos-1 7B (CR1)のような市販のVLMはゼロショット設定でほぼゼロの衝突リコールを示す。
VLM-AutoDriveは、安全クリティカルで時間的ローカライズされた知覚タスクに汎用VLMを適用するためのスケーラブルなレシピを提供する。
- 参考スコア(独自算出の注目度): 25.118024547769895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of ego-centric dashcam footage presents a major challenge for detecting safety-critical events such as collisions and near-collisions, scenarios that are brief, rare, and difficult for generic vision models to capture. While multimodal large language models (MLLMs) demonstrate strong general reasoning ability, they underperform in driving contexts due to domain and temporal misalignment. We introduce VLM-AutoDrive, a modular post-training framework for adapting pretrained Vision-Language Models (VLMs) to high-fidelity anomaly detection. The framework integrates metadata-derived captions, LLM-generated descriptions, visual question answering (VQA) pairs, and chain-of-thought (CoT) reasoning supervision to enable domain-aligned and interpretable learning. Off-the-shelf VLMs such as NVIDIA's Cosmos-Reason1 7B (CR1) exhibit near-zero Collision recall in zero-shot settings; fine-tuning with VLM-AutoDrive improves Collision F1 from 0.00 to 0.69 and overall accuracy from 35.35% to 77.27%. VLM-AutoDrive offers a scalable recipe for adapting general-purpose VLMs to safety-critical, temporally localized perception tasks. Evaluated on real-world Nexar dashcam videos, it achieves substantial gains in Collision and Near-Collision detection while producing interpretable reasoning traces, bridging the gap between perception, causality, and decision reasoning in autonomous driving.
- Abstract(参考訳): エゴ中心のダッシュカム映像の急速な成長は、衝突や近接衝突のような安全に重要な事象を検出する上で大きな課題となる。
マルチモーダルな大言語モデル(MLLM)は、強い一般的な推論能力を示すが、ドメインや時間的ミスアライメントによる駆動状況では性能が劣る。
VLM-AutoDriveは、事前訓練されたビジョンランゲージモデル(VLM)を高忠実な異常検出に適用するためのモジュラー後トレーニングフレームワークである。
このフレームワークは、メタデータ由来のキャプション、LLM生成記述、視覚的質問応答(VQA)ペア、およびチェーン・オブ・シークレット(CoT)推論監視を統合し、ドメイン整合性と解釈可能な学習を可能にする。
NVIDIAのCosmos-Reason1 7B (CR1)のような市販のVLMはゼロショット設定でほぼゼロの衝突リコールを示し、VLM-AutoDriveによる微調整では衝突F1が0.00から0.69に改善され、全体的な精度は35.35%から77.27%に向上した。
VLM-AutoDriveは、安全クリティカルで時間的ローカライズされた知覚タスクに汎用VLMを適用するためのスケーラブルなレシピを提供する。
実際のNexar dashcamビデオに基づいて評価され、解釈可能な推論トレースを生成し、自律運転における知覚、因果性、決定的推論のギャップを埋めながら、衝突や近傍衝突の検出においてかなりの向上を達成する。
関連論文リスト
- DriveVLM-RL: Neuroscience-Inspired Reinforcement Learning with Vision-Language Models for Safe and Deployable Autonomous Driving [7.788062051923755]
DriveVLM-RLは神経科学に触発されたフレームワークで、視覚言語モデルと強化学習を統合する。
このフレームワークは、連続的な空間安全評価のための静的パスに意味報酬学習を分解する。
階層的な報酬合成機構は、セマンティック信号を車両状態と融合させ、非同期トレーニングパイプラインは環境相互作用から高価なVLM推論を分離する。
論文 参考訳(メタデータ) (2026-03-18T21:55:29Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving [14.988477212106018]
DriveMindは、自動運転のためのセマンティック報酬フレームワークである。
平均速度は19.4 +/- 2.3 km/h、経路完了は0.98 +/- 0.03、衝突はゼロに近い。
そのセマンティック報酬は、最小分散シフトでゼロショットから実際のダッシュカムデータを一般化する。
論文 参考訳(メタデータ) (2025-06-01T03:51:09Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding [10.242043337117005]
視覚大言語モデル(VLLM)は、画像キャプションや視覚的質問応答といった一般的な視覚的タスクにおいて、印象的な機能を示している。
しかし、自律運転のような専門的で安全に重要な分野におけるその効果は、まだ明らかにされていない。
DVBenchは、安全クリティカルな運転映像の理解において、VLLMの性能を評価するために設計された先駆的なベンチマークである。
論文 参考訳(メタデータ) (2025-04-20T07:50:44Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。