論文の概要: VRU-Accident: A Vision-Language Benchmark for Video Question Answering and Dense Captioning for Accident Scene Understanding
- arxiv url: http://arxiv.org/abs/2507.09815v1
- Date: Sun, 13 Jul 2025 22:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.057299
- Title: VRU-Accident: A Vision-Language Benchmark for Video Question Answering and Dense Captioning for Accident Scene Understanding
- Title(参考訳): VRU-Accident: 事故現場理解のための映像質問回答と難読化のための視覚言語ベンチマーク
- Authors: Younggun Kim, Ahmed S. Abdelrahman, Mohamed Abdel-Aty,
- Abstract要約: MLLM(Multimodal large language model)は、自動運転車におけるシーン理解と意思決定の強化を約束している。
本稿では,VRUを含む高リスク交通シナリオにおけるMLLMの評価を目的とした,視覚言語ベンチマークであるVRU-Accidentを提案する。
これまでの研究とは異なり、我々のベンチマークはVRU車両事故に特化しており、空間的時間的ダイナミクスと事故の因果的セマンティクスの両方を捉えたリッチできめ細かいアノテーションを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ensuring the safety of vulnerable road users (VRUs), such as pedestrians and cyclists, is a critical challenge for autonomous driving systems, as crashes involving VRUs often result in severe or fatal consequences. While multimodal large language models (MLLMs) have shown promise in enhancing scene understanding and decision making in autonomous vehicles, there is currently no standardized benchmark to quantitatively evaluate their reasoning abilities in complex, safety-critical scenarios involving VRUs. To address this gap, we present VRU-Accident, a large-scale vision-language benchmark designed to evaluate MLLMs in high-risk traffic scenarios involving VRUs. VRU-Accident comprises 1K real-world dashcam accident videos, annotated with 6K multiple-choice question-answer pairs across six safety-critical categories (with 24K candidate options and 3.4K unique answer choices), as well as 1K dense scene descriptions. Unlike prior works, our benchmark focuses explicitly on VRU-vehicle accidents, providing rich, fine-grained annotations that capture both spatial-temporal dynamics and causal semantics of accidents. To assess the current landscape of MLLMs, we conduct a comprehensive evaluation of 17 state-of-the-art models on the multiple-choice VQA task and on the dense captioning task. Our findings reveal that while MLLMs perform reasonably well on visually grounded attributes, they face significant challenges in reasoning and describing accident causes, types, and preventability.
- Abstract(参考訳): 歩行者やサイクリストのような脆弱な道路利用者(VRU)の安全を確保することは、自動運転車にとって重要な課題である。
マルチモーダル大規模言語モデル(MLLM)は、自動運転車におけるシーン理解と意思決定の強化を約束しているが、VRUを含む複雑な安全クリティカルなシナリオにおいて、その推論能力を定量的に評価するための標準化されたベンチマークはない。
このギャップに対処するために,VRUを含む高リスク交通シナリオにおいてMLLMを評価するために設計された大規模視覚言語ベンチマークであるVRU-Accidentを提案する。
VRU-Accidentは、1Kの現実世界のダシュカム事故ビデオと、6つの安全クリティカルカテゴリー(24Kの候補オプションと3.4Kのユニークな回答選択を含む)で6Kの多重選択質問対が注釈付けされている。
これまでの研究とは異なり、我々のベンチマークはVRU車両事故に特化しており、空間的時間的ダイナミクスと事故の因果的セマンティクスの両方を捉えたリッチできめ細かいアノテーションを提供する。
MLLMの現在の状況を評価するため,多目的VQAタスクと高密度キャプションタスクにおいて,17種類の最先端モデルの総合評価を行う。
その結果,MLLMは視覚的特徴に基づいて合理的に機能する一方で,事故原因,タイプ,予防可能性の推論・記述において重要な課題に直面していることが明らかとなった。
関連論文リスト
- DRAMA-X: A Fine-grained Intent Prediction and Risk Reasoning Benchmark For Driving [5.362063089413001]
既存のベンチマークでは、安全クリティカルな状況下でのマルチクラスの意図予測は評価されていない。
DRAMAデータセットから構築した詳細なベンチマークであるDRAMA-Xを紹介する。
我々は,エゴ車の推論パイプラインを反映した軽量でトレーニング不要なフレームワークであるSGG-Intentを提案する。
論文 参考訳(メタデータ) (2025-06-21T05:01:42Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding [10.242043337117005]
視覚大言語モデル(VLLM)は、画像キャプションや視覚的質問応答といった一般的な視覚的タスクにおいて、印象的な機能を示している。
しかし、自律運転のような専門的で安全に重要な分野におけるその効果は、まだ明らかにされていない。
DVBenchは、安全クリティカルな運転映像の理解において、VLLMの性能を評価するために設計された先駆的なベンチマークである。
論文 参考訳(メタデータ) (2025-04-20T07:50:44Z) - Road Rage Reasoning with Vision-language Models (VLMs): Task Definition and Evaluation Dataset [4.357836359387452]
交通渋滞やアグレッシブな運転などの運転関連の刺激によって引き起こされる道路の怒りは、道路の安全に重大な脅威をもたらす。
道路規制に関するこれまでの研究は、主に応答抑制に焦点を合わせており、予防能力は欠如している。
VLM(Vision-Language Models)の出現により、ドライバーの怒りがエスカレートする前に、視覚的にイベントをトリガーし、ダイアログベースの慰めを行うことが可能になった。
論文 参考訳(メタデータ) (2025-03-14T12:18:11Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - DAVE: Diverse Atomic Visual Elements Dataset with High Representation of Vulnerable Road Users in Complex and Unpredictable Environments [60.69159598130235]
Vulnerable Road Users (VRU) の高表現による認識手法の評価を目的とした新しいデータセット DAVE を提案する。
DAVEは16種類のアクターカテゴリー(動物、人間、車など)と16種類のアクションタイプ(カットイン、ジグザグ運動、Uターンなど、複雑で稀なケース)を手動でアノテートしたデータセットである。
実験の結果,既存の手法はDAVEで評価すると性能の劣化に悩まされ,将来的なビデオ認識研究のメリットを浮き彫りにしていることがわかった。
論文 参考訳(メタデータ) (2024-12-28T06:13:44Z) - ScVLM: Enhancing Vision-Language Model for Safety-Critical Event Understanding [5.914751204116458]
SCEの重症度とタイプを分類するために,教師付きおよびコントラスト学習技術を統合した新しいハイブリッド手法であるScVLMを紹介する。
提案手法は,第2戦略ハイウェイ研究プログラム自然言語駆動学習データセットから8,600以上のSCEを用いて訓練し,評価する。
論文 参考訳(メタデータ) (2024-10-01T18:10:23Z) - Abductive Ego-View Accident Video Understanding for Safe Driving
Perception [75.60000661664556]
マルチモーダル・アクシデント・ビデオ理解のための新しいデータセットMM-AUを提案する。
MM-AUには1,727件の映像が収録されている。
安全運転認識のための誘導型事故映像理解フレームワーク(AdVersa-SD)を提案する。
論文 参考訳(メタデータ) (2024-03-01T10:42:52Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。