論文の概要: Bridging Human Oversight and Black-box Driver Assistance: Vision-Language Models for Predictive Alerting in Lane Keeping Assist Systems
- arxiv url: http://arxiv.org/abs/2505.11535v1
- Date: Wed, 14 May 2025 03:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.685153
- Title: Bridging Human Oversight and Black-box Driver Assistance: Vision-Language Models for Predictive Alerting in Lane Keeping Assist Systems
- Title(参考訳): ブリッジング人間監視とブラックボックス運転支援システム:車線維持支援システムにおける予測耐久のための視覚言語モデル
- Authors: Yuhang Wang, Hao Zhou,
- Abstract要約: Lane Keeping Assistシステムはしばしば予測できない現実の失敗に悩まされる。
本稿では,VLMを利用した新しい監視アラートシステムであるLKAlertを紹介し,LKAのリスクを1~3秒前に予測する。
LKAlertは、予測アラートと簡潔な自然言語説明の両方を発行し、運転者の状況認識と信頼を高める。
- 参考スコア(独自算出の注目度): 23.592014953744375
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Lane Keeping Assist systems, while increasingly prevalent, often suffer from unpredictable real-world failures, largely due to their opaque, black-box nature, which limits driver anticipation and trust. To bridge the gap between automated assistance and effective human oversight, we present LKAlert, a novel supervisory alert system that leverages VLM to forecast potential LKA risk 1-3 seconds in advance. LKAlert processes dash-cam video and CAN data, integrating surrogate lane segmentation features from a parallel interpretable model as automated guiding attention. Unlike traditional binary classifiers, LKAlert issues both predictive alert and concise natural language explanation, enhancing driver situational awareness and trust. To support the development and evaluation of such systems, we introduce OpenLKA-Alert, the first benchmark dataset designed for predictive and explainable LKA failure warnings. It contains synchronized multimodal inputs and human-authored justifications across annotated temporal windows. We further contribute a generalizable methodological framework for VLM-based black-box behavior prediction, combining surrogate feature guidance with LoRA. This framework enables VLM to reason over structured visual context without altering its vision backbone, making it broadly applicable to other complex, opaque systems requiring interpretable oversight. Empirical results correctly predicts upcoming LKA failures with 69.8% accuracy and a 58.6\% F1-score. The system also generates high-quality textual explanations for drivers (71.7 ROUGE-L) and operates efficiently at approximately 2 Hz, confirming its suitability for real-time, in-vehicle use. Our findings establish LKAlert as a practical solution for enhancing the safety and usability of current ADAS and offer a scalable paradigm for applying VLMs to human-centered supervision of black-box automation.
- Abstract(参考訳): レーン・キーピング・アシスト(Lane Keeping Assist)のシステムはますます普及しているが、ドライバーの予測と信頼を制限する不透明でブラックボックスの性質のため、予測不可能な現実の失敗に悩まされることが多い。
自動支援と効果的な人的監視のギャップを埋めるため,VLMを利用して1~3秒前にLKAリスクを予測する新しい監視アラートシステムであるLKAlertを提案する。
LKAlertは、ダッシュカムビデオとCANデータを処理し、並列解釈可能なモデルからサロゲートレーンセグメンテーション機能を統合する。
従来のバイナリ分類器とは異なり、LKAlertは予測警告と簡潔な自然言語説明の両方を発行し、運転者の状況認識と信頼を高める。
このようなシステムの開発と評価を支援するために,予測可能かつ説明可能なLKA故障警告用に設計された最初のベンチマークデータセットであるOpenLKA-Alertを導入する。
同期されたマルチモーダル入力と、注釈付き時間窓をまたいだ人間による正当化を含んでいる。
さらに,VLMに基づくブラックボックス行動予測のための一般化可能な方法論的枠組みを提案し,Surrogate特徴ガイダンスとLoRAを組み合わせた。
このフレームワークにより、VLMは視覚のバックボーンを変更することなく構造化された視覚コンテキストを推論することができ、解釈可能な監視を必要とする他の複雑で不透明なシステムにも広く適用できる。
実験結果は、次のLKA障害を69.8%の精度で58.6%のF1スコアで正確に予測する。
このシステムは、ドライバ(71.7 ROUGE-L)の高品質なテキスト説明も生成し、約2Hzで効率よく動作し、リアルタイム車内使用に適していることを確認した。
LKAlertは、現在のADASの安全性とユーザビリティを高めるための実用的なソリューションであり、ブラックボックス自動化の人間中心の監視にVLMを適用するためのスケーラブルなパラダイムを提供する。
関連論文リスト
- Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。
構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation [7.362380225654904]
INSIGHTは、危険検出とエッジケース評価を強化するために設計された階層型視覚言語モデル(VLM)フレームワークである。
本手法は,マルチモーダルデータ融合を用いて意味表現と視覚表現を統合し,運転シナリオの正確な解釈を可能にする。
BDD100Kデータセットの実験結果は、既存のモデルよりもハザード予測の正確性と正確性を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-02-01T01:43:53Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。