論文の概要: Evaluation of Safety Cognition Capability in Vision-Language Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.06497v2
- Date: Thu, 07 Aug 2025 02:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 16:47:38.743885
- Title: Evaluation of Safety Cognition Capability in Vision-Language Models for Autonomous Driving
- Title(参考訳): 自律運転のための視覚言語モデルにおける安全認知能力の評価
- Authors: Enming Zhang, Peizhe Gong, Xingyuan Dai, Min Huang, Yisheng Lv, Qinghai Miao,
- Abstract要約: 本稿では,自律運転シナリオにおける視覚言語モデル(VLM)の安全性認知能力を評価するためのフレームワークであるSCD-Benchを紹介する。
データアノテーションのスケーラビリティ問題に対処するために,半自動ラベリングシステムであるADA(Autonomous Driving )を導入する。
運転環境におけるVLMと安全認知の連携という課題に対処するため,我々は,このタスクに適した最初の大規模データセットであるSCD-Trainingを構築した。
- 参考スコア(独自算出の注目度): 10.423977886893278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the safety of vision-language models (VLMs) in autonomous driving systems is of paramount importance, yet existing research has largely focused on conventional benchmarks rather than safety-critical evaluation. In this work, we present SCD-Bench (Safety Cognition Driving Benchmark) a novel framework specifically designed to assess the safety cognition capabilities of VLMs within interactive driving scenarios. To address the scalability challenge of data annotation, we introduce ADA (Autonomous Driving Annotation), a semi-automated labeling system, further refined through expert review by professionals with domain-specific knowledge in autonomous driving. To facilitate scalable and consistent evaluation, we also propose an automated assessment pipeline leveraging large language models, which demonstrates over 98% agreement with human expert judgments. In addressing the broader challenge of aligning VLMs with safety cognition in driving environments, we construct SCD-Training, the first large-scale dataset tailored for this task, comprising 324.35K high-quality samples. Through extensive experiments, we show that models trained on SCD-Training exhibit marked improvements not only on SCD-Bench, but also on general and domain-specific benchmarks, offering a new perspective on enhancing safety-aware interactions in vision-language systems for autonomous driving.
- Abstract(参考訳): 自律運転システムにおける視覚言語モデル(VLM)の安全性の確保は極めて重要であるが、既存の研究は安全性クリティカルな評価ではなく、従来のベンチマークに重点を置いている。
本研究では,対話型運転シナリオにおけるVLMの安全性認知能力を評価するための新しいフレームワークとして,SCD-Bench(Safety Cognition Driving Benchmark)を提案する。
データアノテーションのスケーラビリティ問題に対処するため,半自動ラベリングシステムであるADA(Autonomous Driving Annotation)を導入する。
スケーラブルで一貫した評価を容易にするため,大規模な言語モデルを活用した自動評価パイプラインを提案する。
運転環境におけるVLMと安全認知の連携という課題に対処するため,我々は,324.35Kの高品質サンプルからなる,このタスクに適した最初の大規模データセットであるSCD-Trainingを構築した。
SCD-Trainingで訓練されたモデルは、SCD-Benchだけでなく、一般およびドメイン固有のベンチマークにも顕著な改善が見られ、自律運転のための視覚言語システムにおける安全性に配慮したインタラクションを向上するための新たな視点を提供する。
関連論文リスト
- STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding [10.242043337117005]
視覚大言語モデル(VLLM)は、画像キャプションや視覚的質問応答といった一般的な視覚的タスクにおいて、印象的な機能を示している。
しかし、自律運転のような専門的で安全に重要な分野におけるその効果は、まだ明らかにされていない。
DVBenchは、安全クリティカルな運転映像の理解において、VLLMの性能を評価するために設計された先駆的なベンチマークである。
論文 参考訳(メタデータ) (2025-04-20T07:50:44Z) - Uncertainty-Aware Hybrid Machine Learning in Virtual Sensors for Vehicle Sideslip Angle Estimation [12.24021738212853]
本稿では,車両の安全性を高めるための高性能仮想センサの開発に焦点をあてる。
提案したUncertainty-Aware Hybrid Learningアーキテクチャは、車載センサーデータから直接VSA(Varby Sideslip Angle)を推定するために、機械学習モデルと車両の動きモデルを統合する。
論文 参考訳(メタデータ) (2025-04-08T14:49:58Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。
構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models [1.6612510324510592]
CurricuVLMは、自律運転エージェントのためのパーソナライズされたカリキュラム学習を可能にする新しいフレームワークである。
我々のアプローチでは、エージェントの動作を分析し、パフォーマンスの弱点を特定し、動的に調整されたトレーニングシナリオを生成するために、視覚言語モデル(VLM)を利用する。
CurricuVLMは、通常のシナリオと安全クリティカルなシナリオの両方において、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-21T00:42:40Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving [106.0319745724181]
自動運転における大規模ビジョン言語モデル(DriveVLM)のための総合的信頼度ベンチマークであるAutoTrustを紹介する。
シナリオを駆動する際の信頼性問題を調べるために,最も大きな視覚的質問応答データセットを構築した。
私たちの評価では、DriveVLMの脆弱性を信頼性の脅威に対して明らかにしました。
論文 参考訳(メタデータ) (2024-12-19T18:59:33Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - DRIVE: Dependable Robust Interpretable Visionary Ensemble Framework in Autonomous Driving [1.4104119587524289]
自動運転の最近の進歩は、エンド・ツー・エンドの学習パラダイムへのパラダイムシフトを経験している。
これらのモデルは、しばしば解釈可能性を犠牲にし、信頼、安全、規制の遵守に重大な課題を提起する。
我々は、エンドツーエンドの教師なし運転モデルにおける説明の信頼性と安定性を改善するために設計された総合的なフレームワークDRIVEを紹介する。
論文 参考訳(メタデータ) (2024-09-16T14:40:47Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Differentiable Control Barrier Functions for Vision-based End-to-End
Autonomous Driving [100.57791628642624]
本稿では,視覚に基づくエンドツーエンド自動運転のための安全保証学習フレームワークを提案する。
我々は、勾配降下によりエンドツーエンドに訓練された微分制御バリア関数(dCBF)を備えた学習システムを設計する。
論文 参考訳(メタデータ) (2022-03-04T16:14:33Z) - Safety-aware Policy Optimisation for Autonomous Racing [17.10371721305536]
ハミルトン・ヤコビ(HJ)到達可能性理論を制約付きマルコフ決定過程(CMDP)フレームワークに導入する。
我々は,HJの安全性を視覚的文脈で直接学習できることを実証した。
我々は、最近リリースされた高忠実な自律走行環境であるSafety GymやLearning-to-Race (L2R)など、いくつかのベンチマークタスクにおいて、本手法の評価を行った。
論文 参考訳(メタデータ) (2021-10-14T20:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。