論文の概要: Enhancing Vision-Language Models with Scene Graphs for Traffic Accident Understanding
- arxiv url: http://arxiv.org/abs/2407.05910v1
- Date: Mon, 8 Jul 2024 13:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:40:39.094414
- Title: Enhancing Vision-Language Models with Scene Graphs for Traffic Accident Understanding
- Title(参考訳): 交通事故理解のためのシーングラフを用いたビジョンランゲージモデルの構築
- Authors: Aaron Lohner, Francesco Compagno, Jonathan Francis, Alessandro Oltramari,
- Abstract要約: この研究は、交通事故のビデオを前処理し、それらをシーングラフとしてエンコードし、この表現を事故分類のための視覚と言語モダリティと整合させるためのマルチステージマルチモーダルパイプラインを導入している。
4つのクラスでトレーニングすると、一般的なトラフィック異常検出ベンチマークの(バランスの取れていない)サブセットに対して57.77%のバランスの取れた精度のスコアが得られた。
- 参考スコア(独自算出の注目度): 45.7444555195196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing a traffic accident is an essential part of any autonomous driving or road monitoring system. An accident can appear in a wide variety of forms, and understanding what type of accident is taking place may be useful to prevent it from reoccurring. The task of being able to classify a traffic scene as a specific type of accident is the focus of this work. We approach the problem by likening a traffic scene to a graph, where objects such as cars can be represented as nodes, and relative distances and directions between them as edges. This representation of an accident can be referred to as a scene graph, and is used as input for an accident classifier. Better results can be obtained with a classifier that fuses the scene graph input with representations from vision and language. This work introduces a multi-stage, multimodal pipeline to pre-process videos of traffic accidents, encode them as scene graphs, and align this representation with vision and language modalities for accident classification. When trained on 4 classes, our method achieves a balanced accuracy score of 57.77% on an (unbalanced) subset of the popular Detection of Traffic Anomaly (DoTA) benchmark, representing an increase of close to 5 percentage points from the case where scene graph information is not taken into account.
- Abstract(参考訳): 交通事故を認識することは、自動運転や道路監視システムにとって不可欠な部分である。
事故は様々な形で現れ、どのような事故が起きているかを理解することは、事故の再発生を防ぐのに役立つかもしれない。
交通シーンを特定のタイプの事故として分類できるタスクは、この作業の焦点である。
本研究では,車などの物体をノードとして表現し,その間の相対距離や方向をエッジとして表現するグラフに,交通シーンを類似させることにより,この問題に対処する。
この事故の表現はシーングラフと呼ばれ、事故分類器の入力として使用される。
より良い結果を得るには、シーングラフの入力を視覚や言語からの表現と融合させる分類器を使用する。
この研究は、交通事故のビデオを前処理し、それらをシーングラフとしてエンコードし、この表現を事故分類のための視覚と言語モダリティと整合させるためのマルチステージマルチモーダルパイプラインを導入している。
4つのクラスでトレーニングすると,一般的な交通異常検出(DoTA)ベンチマークの(不均衡)サブセットに対して57.77%のバランスの取れた精度スコアが得られ,シーングラフ情報を考慮しない場合に比べて5ポイント近く増加していた。
関連論文リスト
- Abductive Ego-View Accident Video Understanding for Safe Driving
Perception [75.60000661664556]
マルチモーダル・アクシデント・ビデオ理解のための新しいデータセットMM-AUを提案する。
MM-AUには1,727件の映像が収録されている。
安全運転認識のための誘導型事故映像理解フレームワーク(AdVersa-SD)を提案する。
論文 参考訳(メタデータ) (2024-03-01T10:42:52Z) - Graph Neural Networks for Road Safety Modeling: Datasets and Evaluations
for Accident Analysis [21.02297148118655]
本稿では,米国各州の公式報告から,大規模交通事故記録のデータセットを構築した。
この新たなデータセットを用いて,道路ネットワーク上で発生した事故を予測するための既存のディープラーニング手法を評価する。
主な発見は、GraphSAGEのようなグラフニューラルネットワークが、道路上の事故数を22%未満の絶対誤差で正確に予測できることです。
論文 参考訳(メタデータ) (2023-10-31T21:43:10Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z) - Augmenting Ego-Vehicle for Traffic Near-Miss and Accident Classification
Dataset using Manipulating Conditional Style Translation [0.3441021278275805]
事故が起こる前の事故と近距離事故には差はない。
我々の貢献は、事故の定義を再定義し、DADA-2000データセットにおける事故の不整合を再注釈することである。
提案手法は、条件付きスタイル変換(CST)と分離可能な3次元畳み込みニューラルネットワーク(S3D)の2つの異なるコンポーネントを統合する。
論文 参考訳(メタデータ) (2023-01-06T22:04:47Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - TAD: A Large-Scale Benchmark for Traffic Accidents Detection from Video
Surveillance [2.1076255329439304]
既存の交通事故のデータセットは小規模で、監視カメラからではなく、オープンソースではない。
様々な次元による統合とアノテーションの後に,TADという大規模交通事故データセットが提案されている。
論文 参考訳(メタデータ) (2022-09-26T03:00:50Z) - Sensing accident-prone features in urban scenes for proactive driving
and accident prevention [0.5669790037378094]
本稿では,ダッシュカムから取得したリアルタイム画像に基づいて,事故発生時の特徴を視覚的にドライバに通知する。
事故のホットスポット周辺のGoogleストリートビュー画像は、深層畳み込みニューラルネットワーク(CNN)のファミリーを訓練するために使用される
CNNは事故が発生しやすい特徴を検出し、ある都市のシーンを事故のホットスポットと非ホットスポットに分類することができる。
論文 参考訳(メタデータ) (2022-02-25T16:05:53Z) - An Image-based Approach of Task-driven Driving Scene Categorization [7.291979964739049]
本稿では,弱監督データを用いたタスク駆動運転場面分類手法を提案する。
異なるセマンティック属性のシーンを対比学習によって識別する尺度を学習する。
セマンティックシーン類似性学習とドライビングシーン分類の結果を広範囲に研究した。
論文 参考訳(メタデータ) (2021-03-10T08:23:36Z) - A model for traffic incident prediction using emergency braking data [77.34726150561087]
道路交通事故予測におけるデータ不足の根本的な課題を、事故の代わりに緊急ブレーキイベントをトレーニングすることで解決します。
メルセデス・ベンツ車両の緊急ブレーキデータに基づくドイツにおける交通事故予測モデルを実装したプロトタイプを提案する。
論文 参考訳(メタデータ) (2021-02-12T18:17:12Z) - Road Scene Graph: A Semantic Graph-Based Scene Representation Dataset
for Intelligent Vehicles [72.04891523115535]
本稿では,車載用特別シーングラフである道路シーングラフを提案する。
オブジェクトの提案だけでなく、ペアワイドな関係も提供します。
それらをトポロジカルグラフで整理することで、これらのデータは説明可能であり、完全に接続され、GCNによって容易に処理できる。
論文 参考訳(メタデータ) (2020-11-27T07:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。