論文の概要: Enhancing Vision-Language Models with Scene Graphs for Traffic Accident Understanding
- arxiv url: http://arxiv.org/abs/2407.05910v1
- Date: Mon, 8 Jul 2024 13:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:40:39.094414
- Title: Enhancing Vision-Language Models with Scene Graphs for Traffic Accident Understanding
- Title(参考訳): 交通事故理解のためのシーングラフを用いたビジョンランゲージモデルの構築
- Authors: Aaron Lohner, Francesco Compagno, Jonathan Francis, Alessandro Oltramari,
- Abstract要約: この研究は、交通事故のビデオを前処理し、それらをシーングラフとしてエンコードし、この表現を事故分類のための視覚と言語モダリティと整合させるためのマルチステージマルチモーダルパイプラインを導入している。
4つのクラスでトレーニングすると、一般的なトラフィック異常検出ベンチマークの(バランスの取れていない)サブセットに対して57.77%のバランスの取れた精度のスコアが得られた。
- 参考スコア(独自算出の注目度): 45.7444555195196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing a traffic accident is an essential part of any autonomous driving or road monitoring system. An accident can appear in a wide variety of forms, and understanding what type of accident is taking place may be useful to prevent it from reoccurring. The task of being able to classify a traffic scene as a specific type of accident is the focus of this work. We approach the problem by likening a traffic scene to a graph, where objects such as cars can be represented as nodes, and relative distances and directions between them as edges. This representation of an accident can be referred to as a scene graph, and is used as input for an accident classifier. Better results can be obtained with a classifier that fuses the scene graph input with representations from vision and language. This work introduces a multi-stage, multimodal pipeline to pre-process videos of traffic accidents, encode them as scene graphs, and align this representation with vision and language modalities for accident classification. When trained on 4 classes, our method achieves a balanced accuracy score of 57.77% on an (unbalanced) subset of the popular Detection of Traffic Anomaly (DoTA) benchmark, representing an increase of close to 5 percentage points from the case where scene graph information is not taken into account.
- Abstract(参考訳): 交通事故を認識することは、自動運転や道路監視システムにとって不可欠な部分である。
事故は様々な形で現れ、どのような事故が起きているかを理解することは、事故の再発生を防ぐのに役立つかもしれない。
交通シーンを特定のタイプの事故として分類できるタスクは、この作業の焦点である。
本研究では,車などの物体をノードとして表現し,その間の相対距離や方向をエッジとして表現するグラフに,交通シーンを類似させることにより,この問題に対処する。
この事故の表現はシーングラフと呼ばれ、事故分類器の入力として使用される。
より良い結果を得るには、シーングラフの入力を視覚や言語からの表現と融合させる分類器を使用する。
この研究は、交通事故のビデオを前処理し、それらをシーングラフとしてエンコードし、この表現を事故分類のための視覚と言語モダリティと整合させるためのマルチステージマルチモーダルパイプラインを導入している。
4つのクラスでトレーニングすると,一般的な交通異常検出(DoTA)ベンチマークの(不均衡)サブセットに対して57.77%のバランスの取れた精度スコアが得られ,シーングラフ情報を考慮しない場合に比べて5ポイント近く増加していた。
関連論文リスト
- Graph Neural Networks for Road Safety Modeling: Datasets and Evaluations
for Accident Analysis [21.02297148118655]
本稿では,米国各州の公式報告から,大規模交通事故記録のデータセットを構築した。
この新たなデータセットを用いて,道路ネットワーク上で発生した事故を予測するための既存のディープラーニング手法を評価する。
主な発見は、GraphSAGEのようなグラフニューラルネットワークが、道路上の事故数を22%未満の絶対誤差で正確に予測できることです。
論文 参考訳(メタデータ) (2023-10-31T21:43:10Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z) - Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。
データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。
交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文 参考訳(メタデータ) (2023-03-06T02:05:14Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - Self Supervised Clustering of Traffic Scenes using Graph Representations [2.658812114255374]
本稿では,手動ラベリングを使わずに自己管理されたトラフィックシーンをクラスタリングするデータ駆動方式を提案する。
セマンティックシーングラフモデルを用いて、トラフィックシーンの一般的なグラフ埋め込みを作成し、シームズネットワークを用いて低次元の埋め込み空間にマッピングする。
新たなアプローチのトレーニングプロセスにおいて、カルテシア空間の既存の交通シーンを拡張し、正の類似性サンプルを生成する。
論文 参考訳(メタデータ) (2022-11-24T22:52:55Z) - Sensing accident-prone features in urban scenes for proactive driving
and accident prevention [0.5669790037378094]
本稿では,ダッシュカムから取得したリアルタイム画像に基づいて,事故発生時の特徴を視覚的にドライバに通知する。
事故のホットスポット周辺のGoogleストリートビュー画像は、深層畳み込みニューラルネットワーク(CNN)のファミリーを訓練するために使用される
CNNは事故が発生しやすい特徴を検出し、ある都市のシーンを事故のホットスポットと非ホットスポットに分類することができる。
論文 参考訳(メタデータ) (2022-02-25T16:05:53Z) - Towards Traffic Scene Description: The Semantic Scene Graph [0.0]
本稿では,交通シーンを意味的に記述するモデルについて述べる。
このモデルでは、道路地形や道路地形とは無関係に交通状況を記述することができる。
この記述の重要な側面は、機械可読形式に容易に変換できることである。
論文 参考訳(メタデータ) (2021-11-19T13:08:55Z) - An Image-based Approach of Task-driven Driving Scene Categorization [7.291979964739049]
本稿では,弱監督データを用いたタスク駆動運転場面分類手法を提案する。
異なるセマンティック属性のシーンを対比学習によって識別する尺度を学習する。
セマンティックシーン類似性学習とドライビングシーン分類の結果を広範囲に研究した。
論文 参考訳(メタデータ) (2021-03-10T08:23:36Z) - Road Scene Graph: A Semantic Graph-Based Scene Representation Dataset
for Intelligent Vehicles [72.04891523115535]
本稿では,車載用特別シーングラフである道路シーングラフを提案する。
オブジェクトの提案だけでなく、ペアワイドな関係も提供します。
それらをトポロジカルグラフで整理することで、これらのデータは説明可能であり、完全に接続され、GCNによって容易に処理できる。
論文 参考訳(メタデータ) (2020-11-27T07:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。