論文の概要: Abductive Ego-View Accident Video Understanding for Safe Driving
Perception
- arxiv url: http://arxiv.org/abs/2403.00436v1
- Date: Fri, 1 Mar 2024 10:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:37:04.423995
- Title: Abductive Ego-View Accident Video Understanding for Safe Driving
Perception
- Title(参考訳): 安全運転知覚のためのアブダプティブ・エゴビュー事故映像理解
- Authors: Jianwu Fang, Lei-lei Li, Junfei Zhou, Junbin Xiao, Hongkai Yu, Chen
Lv, Jianru Xue, and Tat-Seng Chua
- Abstract要約: マルチモーダル・アクシデント・ビデオ理解のための新しいデータセットMM-AUを提案する。
MM-AUには1,727件の映像が収録されている。
安全運転認識のための誘導型事故映像理解フレームワーク(AdVersa-SD)を提案する。
- 参考スコア(独自算出の注目度): 75.60000661664556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MM-AU, a novel dataset for Multi-Modal Accident video
Understanding. MM-AU contains 11,727 in-the-wild ego-view accident videos, each
with temporally aligned text descriptions. We annotate over 2.23 million object
boxes and 58,650 pairs of video-based accident reasons, covering 58 accident
categories. MM-AU supports various accident understanding tasks, particularly
multimodal video diffusion to understand accident cause-effect chains for safe
driving. With MM-AU, we present an Abductive accident Video understanding
framework for Safe Driving perception (AdVersa-SD). AdVersa-SD performs video
diffusion via an Object-Centric Video Diffusion (OAVD) method which is driven
by an abductive CLIP model. This model involves a contrastive interaction loss
to learn the pair co-occurrence of normal, near-accident, accident frames with
the corresponding text descriptions, such as accident reasons, prevention
advice, and accident categories. OAVD enforces the causal region learning while
fixing the content of the original frame background in video generation, to
find the dominant cause-effect chain for certain accidents. Extensive
experiments verify the abductive ability of AdVersa-SD and the superiority of
OAVD against the state-of-the-art diffusion models. Additionally, we provide
careful benchmark evaluations for object detection and accident reason
answering since AdVersa-SD relies on precise object and accident reason
information.
- Abstract(参考訳): マルチモーダル・アクシデント・ビデオ理解のための新しいデータセットMM-AUを提案する。
MM-AUには1,727件の映像が収録されている。
我々は223万件以上のオブジェクトボックスと58,650対の動画ベースの事故理由を注釈し、58の事故カテゴリをカバーした。
MM-AUは、安全運転のための事故原因連鎖を理解するために、様々な事故理解タスク、特にマルチモーダルビデオ拡散をサポートする。
MM-AUでは,安全運転認識のための事故映像理解フレームワーク(AdVersa-SD)を提案する。
AdVersa-SDは、Abductive CLIPモデルによって駆動されるOAVD(Object-Centric Video Diffusion)メソッドを介してビデオ拡散を行う。
このモデルは対照的な相互作用損失を伴い、通常、近発事故、事故原因、予防アドバイス、事故カテゴリーといった対応するテキスト記述と事故フレームのペア共起を学習する。
OAVDは、ビデオ生成において元のフレーム背景の内容を修正しながら因果領域の学習を強制し、特定の事故の原因連鎖を見つける。
広汎な実験により,AdVersa-SDの誘導能力と,最先端拡散モデルに対するOAVDの優位性が検証された。
また,AdVersa-SDは正確なオブジェクトと事故原因情報に依存しているため,オブジェクト検出と事故原因応答のベンチマーク評価を行う。
関連論文リスト
- Enhancing Vision-Language Models with Scene Graphs for Traffic Accident Understanding [45.7444555195196]
この研究は、交通事故のビデオを前処理し、それらをシーングラフとしてエンコードし、この表現を事故分類のための視覚と言語モダリティと整合させるためのマルチステージマルチモーダルパイプラインを導入している。
4つのクラスでトレーニングすると、一般的なトラフィック異常検出ベンチマークの(バランスの取れていない)サブセットに対して57.77%のバランスの取れた精度のスコアが得られた。
論文 参考訳(メタデータ) (2024-07-08T13:15:11Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - ACAV: A Framework for Automatic Causality Analysis in Autonomous Vehicle
Accident Recordings [5.578446693797519]
近年の死者は、大規模な検査による安全性検証の重要性を強調している。
本稿では,AV事故記録の因果解析を行うための自動フレームワークACAVを提案する。
我々はアポロADSでACAVを評価し、110件の事故記録の93.64%で5種類の因果事象を特定できることを発見した。
論文 参考訳(メタデータ) (2024-01-13T12:41:05Z) - A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised
Traffic Accident Detection in Driving Videos [22.553356096143734]
本稿では,運転ビデオにおける教師なし交通事故検出のためのメモリ拡張型マルチタスク協調フレームワーク(MAMTCF)を提案する。
映像フレームの外観変化と物体の動きを同時にモデル化することにより,エゴ関連事故と非エゴ関連事故の両方をより正確に検出することができる。
論文 参考訳(メタデータ) (2023-07-27T01:45:13Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z) - Augmenting Ego-Vehicle for Traffic Near-Miss and Accident Classification
Dataset using Manipulating Conditional Style Translation [0.3441021278275805]
事故が起こる前の事故と近距離事故には差はない。
我々の貢献は、事故の定義を再定義し、DADA-2000データセットにおける事故の不整合を再注釈することである。
提案手法は、条件付きスタイル変換(CST)と分離可能な3次元畳み込みニューラルネットワーク(S3D)の2つの異なるコンポーネントを統合する。
論文 参考訳(メタデータ) (2023-01-06T22:04:47Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - An Attention-guided Multistream Feature Fusion Network for Localization
of Risky Objects in Driving Videos [10.674638266121574]
本稿では,ダッシュカムビデオから危険な交通エージェントをローカライズする,注意誘導型マルチストリーム機能融合ネットワーク(AM-Net)を提案する。
2つのGRU(Gated Recurrent Unit)ネットワークは、危険な交通エージェントを識別するために、連続するビデオフレームから抽出されたオブジェクトバウンディングボックスと光フロー特徴を用いている。
AM-Netは2つの機能ストリームを使用して、ビデオ内のトラフィックエージェントの危険度スコアを予測する。
論文 参考訳(メタデータ) (2022-09-16T13:36:28Z) - Driver Intention Anticipation Based on In-Cabin and Driving Scene
Monitoring [52.557003792696484]
本稿では,車内映像と交通シーン映像の両方に基づいて運転者の意図を検出する枠組みを提案する。
本フレームワークは,83.98%,F1スコア84.3%の精度で予測を行う。
論文 参考訳(メタデータ) (2020-06-20T11:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。