論文の概要: AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond
- arxiv url: http://arxiv.org/abs/2509.26636v1
- Date: Tue, 30 Sep 2025 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.24574
- Title: AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond
- Title(参考訳): AccidentBench: 事故のマルチモーダル理解と推論のベンチマーク
- Authors: Shangding Gu, Xiaohan Wang, Donghao Ying, Haoyu Zhao, Runing Yang, Ming Jin, Boyi Li, Marco Pavone, Serena Yeung-Levy, Jun Wang, Dawn Song, Costas Spanos,
- Abstract要約: AccidentBenchは、自動車事故シナリオとBeyondドメインを組み合わせた大規模なベンチマークである。
このベンチマークには、約2000のビデオと19000以上の人間による質問応答ペアが含まれている。
- 参考スコア(独自算出の注目度): 101.20320617562321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advances in multimodal models demand benchmarks that rigorously evaluate understanding and reasoning in safety-critical, dynamic real-world settings. We present AccidentBench, a large-scale benchmark that combines vehicle accident scenarios with Beyond domains, safety-critical settings in air and water that emphasize spatial and temporal reasoning (e.g., navigation, orientation, multi-vehicle motion). The benchmark contains approximately 2000 videos and over 19000 human-annotated question--answer pairs spanning multiple video lengths (short/medium/long) and difficulty levels (easy/medium/hard). Tasks systematically probe core capabilities: temporal, spatial, and intent understanding and reasoning. By unifying accident-centric traffic scenes with broader safety-critical scenarios in air and water, AccidentBench offers a comprehensive, physically grounded testbed for evaluating models under real-world variability. Evaluations of state-of-the-art models (e.g., Gemini-2.5 Pro and GPT-5) show that even the strongest models achieve only about 18% accuracy on the hardest tasks and longest videos, revealing substantial gaps in real-world temporal, spatial, and intent reasoning. AccidentBench is designed to expose these critical gaps and drive the development of multimodal models that are safer, more robust, and better aligned with real-world safety-critical challenges. The code and dataset are available at: https://github.com/SafeRL-Lab/AccidentBench
- Abstract(参考訳): マルチモーダルモデルの急速な進歩は、安全クリティカルでダイナミックな現実世界の設定における理解と推論を厳格に評価するベンチマークを必要とする。
AccidentBenchは、自動車事故のシナリオをBeyondドメインと組み合わせた大規模なベンチマークで、空間的および時間的推論(ナビゲーション、方向、複数車両の動きなど)を重視した、空気と水中の安全クリティカルな設定を提供する。
このベンチマークには、約2000のビデオと19000以上の人間による注釈付き質問対が含まれており、複数のビデオの長さ(ショート/メジウム/ロング)と難易度(イージー/メジウム/ハード)にまたがっている。
タスクは、時間的、空間的、意図的な理解と推論という、コア機能を体系的に調査する。
AccidentBenchは、事故中心の交通シーンを、空気と水中のより広い安全クリティカルなシナリオと統合することによって、現実世界の変動性の下でモデルを評価するための、包括的で物理的に基盤付けられたテストベッドを提供する。
最先端モデル(例えば、Gemini-2.5 Pro、GPT-5)の評価では、最強モデルでさえ、最も難しいタスクや長いビデオに対してわずか18%の精度しか達成せず、現実世界の時間的、空間的、意図的推論においてかなりのギャップが明らかになっている。
AccidentBenchは、これらの重要なギャップを露呈し、より安全で、より堅牢で、現実世界の安全クリティカルな課題に適合したマルチモーダルモデルの開発を促進するように設計されている。
コードとデータセットは、https://github.com/SafeRL-Lab/AccidentBench.comで入手できる。
関連論文リスト
- iSafetyBench: A video-language benchmark for safety in industrial environment [6.697702130929693]
iSafetyBenchは、産業環境でのモデルパフォーマンスを評価するために設計された新しいビデオ言語ベンチマークである。
iSafetyBenchは、現実世界の産業環境から得られた1100本のビデオクリップで構成されている。
ゼロショット条件下で8つの最先端ビデオ言語モデルを評価する。
論文 参考訳(メタデータ) (2025-08-01T07:55:53Z) - MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文 参考訳(メタデータ) (2025-06-05T19:12:45Z) - Learning collision risk proactively from naturalistic driving data at scale [3.1457219084519004]
本研究は一般サロゲート安全対策(GSSM)を紹介する。
GSSMは、クラッシュやリスクラベルを必要とせずに、自然主義的な運転から衝突リスクを学習する。
複数のGSSMを訓練するためには、運動キネマティクス、天気、照明など、自然運動からのさまざまなデータを使用する。
即時運動キネマティクスのみを用いた基本的なGSSMは、精度-リコール曲線0.9の領域を達成し、衝突を避けるために2.6秒の中央値の時間を確保できる。
論文 参考訳(メタデータ) (2025-05-19T07:22:32Z) - CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である
本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。
オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。
私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文 参考訳(メタデータ) (2024-07-25T04:12:49Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。