論文の概要: CrashSight: A Phase-Aware, Infrastructure-Centric Video Benchmark for Traffic Crash Scene Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2604.08457v1
- Date: Thu, 09 Apr 2026 16:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.03352
- Title: CrashSight: A Phase-Aware, Infrastructure-Centric Video Benchmark for Traffic Crash Scene Understanding and Reasoning
- Title(参考訳): CrashSight: トラフィッククラッシュシーンの理解と推論のためのフェーズアウェアでインフラストラクチャ中心のビデオベンチマーク
- Authors: Rui Gan, Junyi Ma, Pei Li, Xingyou Yang, Kai Chen, Sikai Chen, Bin Ran,
- Abstract要約: textbfCrashSightは,現実の道路カメラデータを用いた道路事故理解のための視覚ベンチマークである。
データセットは250のクラッシュビデオで構成されており、2階層の分類の下で構成された13Kの質問応答ペアが注釈付けされている。
我々は8つの最先端のVLMをベンチマークし、強いシーン記述能力にもかかわらず、現在のモデルは安全クリティカルなシナリオにおける時間的・因果的推論に苦戦していることを示す。
- 参考スコア(独自算出の注目度): 27.23760411917563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative autonomous driving requires traffic scene understanding from both vehicle and infrastructure perspectives. While vision-language models (VLMs) show strong general reasoning capabilities, their performance in safety-critical traffic scenarios remains insufficiently evaluated due to the ego-vehicle focus of existing benchmarks. To bridge this gap, we present \textbf{CrashSight}, a large-scale vision-language benchmark for roadway crash understanding using real-world roadside camera data. The dataset comprises 250 crash videos, annotated with 13K multiple-choice question-answer pairs organized under a two-tier taxonomy. Tier 1 evaluates the visual grounding of scene context and involved parties, while Tier 2 probes higher-level reasoning, including crash mechanics, causal attribution, temporal progression, and post-crash outcomes. We benchmark 8 state-of-the-art VLMs and show that, despite strong scene description capabilities, current models struggle with temporal and causal reasoning in safety-critical scenarios. We provide a detailed analysis of failure scenarios and discuss directions for improving VLM crash understanding. The benchmark provides a standardized evaluation framework for infrastructure-assisted perception in cooperative autonomous driving. The CrashSight benchmark, including the full dataset and code, is accessible at https://mcgrche.github.io/crashsight.
- Abstract(参考訳): 協調自動運転は、車両とインフラの両方の観点からの交通シーンの理解を必要とする。
視覚言語モデル(VLM)は、強力な一般的な推論能力を示すが、既存のベンチマークのエゴサイクルの焦点のため、安全クリティカルな交通シナリオにおける性能評価は不十分である。
このギャップを埋めるために,現実の道路カメラデータを用いた道路事故理解のための大規模視覚言語ベンチマークである‘textbf{CrashSight} を提示する。
データセットは250のクラッシュビデオで構成されており、2階層の分類の下で構成された13Kの質問応答ペアが注釈付けされている。
Tier 1はシーンコンテキストと関係者の視覚的基盤を評価し、Tier 2はクラッシュメカニクス、因果帰属、時間的進行、クレーシュ後の結果など、より高いレベルの推論を探索する。
我々は8つの最先端のVLMをベンチマークし、強いシーン記述能力にもかかわらず、現在のモデルは安全クリティカルなシナリオにおける時間的・因果的推論に苦戦していることを示す。
障害シナリオを詳細に分析し、VLMのクラッシュ理解を改善するための方向性について議論する。
このベンチマークは、協調自動運転におけるインフラ支援の認識のための標準化された評価フレームワークを提供する。
完全なデータセットとコードを含むCrashSightベンチマークは、https://mcgrche.github.io/crashsightでアクセス可能である。
関連論文リスト
- How Well Do Vision-Language Models Understand Sequential Driving Scenes? A Sensitivity Study [2.6954666679827137]
VENUSSは連続運転シーンにおけるVLM性能の系統的感度解析のためのフレームワークである。
ドライビングビデオから時間的シーケンスを抽出し、カスタムカテゴリ間で構造化された評価を生成する。
トップモデルでさえ、同じような制約で人間のパフォーマンスにマッチせず、57%の精度しか達成できないことを示す。
論文 参考訳(メタデータ) (2026-04-08T07:14:55Z) - SAVeD: A First-Person Social Media Video Dataset for ADAS-equipped vehicle Near-Miss and Crash Event Analyses [0.7874708385247353]
本稿では,ソーシャルメディアコンテンツから収集した大規模ビデオデータセットであるSAVeDを紹介する。
SAVEDは2,119人のファースト・パーソン・ビデオ、様々な場所でのADAS車両の運用、照明条件、気象シナリオを撮影する。
このデータセットには、衝突、回避操作、解脱のためのビデオフレームレベルのアノテーションが含まれており、知覚と意思決定の失敗の両方を分析することができる。
論文 参考訳(メタデータ) (2025-12-19T15:58:52Z) - Hierarchical Reasoning with Vision-Language Models for Incident Reports from Dashcam Videos [0.03598453624340711]
本稿では,ダッシュカムビデオからのインシデントレポート生成のための階層的推論フレームワークを提案する。
視覚言語モデルにフレームレベルのキャプション、インシデントフレームの検出、微粒化推論を統合する。
公式の2COOOLオープンリーダーボードでは、29チーム中2位にランクされ、最高のCIDEr-Dスコアを獲得しています。
論文 参考訳(メタデータ) (2025-10-14T06:36:41Z) - AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond [101.20320617562321]
AccidentBenchは、自動車事故シナリオとBeyondドメインを組み合わせた大規模なベンチマークである。
このベンチマークには、約2000のビデオと19000以上の人間による質問応答ペアが含まれている。
論文 参考訳(メタデータ) (2025-09-30T17:59:13Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。