論文の概要: An Attention-guided Multistream Feature Fusion Network for Localization
of Risky Objects in Driving Videos
- arxiv url: http://arxiv.org/abs/2209.07922v1
- Date: Fri, 16 Sep 2022 13:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 12:50:44.979820
- Title: An Attention-guided Multistream Feature Fusion Network for Localization
of Risky Objects in Driving Videos
- Title(参考訳): 運転映像における危険物体の局在化のための注意誘導型マルチストリーム特徴融合ネットワーク
- Authors: Muhammad Monjurul Karim, Ruwen Qin, Zhaozheng Yin
- Abstract要約: 本稿では,ダッシュカムビデオから危険な交通エージェントをローカライズする,注意誘導型マルチストリーム機能融合ネットワーク(AM-Net)を提案する。
2つのGRU(Gated Recurrent Unit)ネットワークは、危険な交通エージェントを識別するために、連続するビデオフレームから抽出されたオブジェクトバウンディングボックスと光フロー特徴を用いている。
AM-Netは2つの機能ストリームを使用して、ビデオ内のトラフィックエージェントの危険度スコアを予測する。
- 参考スコア(独自算出の注目度): 10.674638266121574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting dangerous traffic agents in videos captured by vehicle-mounted
dashboard cameras (dashcams) is essential to facilitate safe navigation in a
complex environment. Accident-related videos are just a minor portion of the
driving video big data, and the transient pre-accident processes are highly
dynamic and complex. Besides, risky and non-risky traffic agents can be similar
in their appearance. These make risky object localization in the driving video
particularly challenging. To this end, this paper proposes an attention-guided
multistream feature fusion network (AM-Net) to localize dangerous traffic
agents from dashcam videos. Two Gated Recurrent Unit (GRU) networks use object
bounding box and optical flow features extracted from consecutive video frames
to capture spatio-temporal cues for distinguishing dangerous traffic agents. An
attention module coupled with the GRUs learns to attend to the traffic agents
relevant to an accident. Fusing the two streams of features, AM-Net predicts
the riskiness scores of traffic agents in the video. In supporting this study,
the paper also introduces a benchmark dataset called Risky Object Localization
(ROL). The dataset contains spatial, temporal, and categorical annotations with
the accident, object, and scene-level attributes. The proposed AM-Net achieves
a promising performance of 85.73% AUC on the ROL dataset. Meanwhile, the AM-Net
outperforms current state-of-the-art for video anomaly detection by 6.3% AUC on
the DoTA dataset. A thorough ablation study further reveals AM-Net's merits by
evaluating the contributions of its different components.
- Abstract(参考訳): 車載ダッシュボードカメラ(dashcams)で撮影されたビデオ中の危険な交通エージェントを検出することは、複雑な環境での安全な航行を容易にするために不可欠である。
事故関連ビデオは、運転するビデオのビッグデータのごく一部にすぎない。
また、危険で非リスクな交通機関もその外観によく似ている。
これにより、ドライブビデオにおける危険なオブジェクトのローカライズが特に困難になる。
そこで本稿では,ダッシュカムビデオから危険な交通エージェントをローカライズする,注意誘導型マルチストリーム機能融合ネットワーク(AM-Net)を提案する。
2つのGRU(Gated Recurrent Unit)ネットワークは、オブジェクトバウンディングボックスと、連続するビデオフレームから抽出された光フロー特徴を用いて、危険な交通エージェントを識別するための時空間的手がかりをキャプチャする。
GRUと結合したアテンションモジュールは、事故に関連するトラフィックエージェントへの参加を学ぶ。
AM-Netは2つの機能ストリームを使用して、ビデオ内のトラフィックエージェントの危険度スコアを予測する。
本稿では,リスクオブジェクトローカライゼーション(ROL)というベンチマークデータセットについても紹介する。
データセットには、事故、オブジェクト、シーンレベルの属性を含む空間的、時間的、カテゴリー的アノテーションが含まれている。
提案された AM-Net は ROL データセット上で85.73% AUC の有望な性能を達成する。
一方、AM-Netは、DoTAデータセット上で6.3%のAUCによるビデオ異常検出の最先端技術を上回っている。
徹底的なアブレーション研究は、AM-Netのメリットをさらに明らかにし、それぞれのコンポーネントの貢献を評価している。
関連論文リスト
- CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である
本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。
オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。
私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文 参考訳(メタデータ) (2024-07-25T04:12:49Z) - Abductive Ego-View Accident Video Understanding for Safe Driving
Perception [75.60000661664556]
マルチモーダル・アクシデント・ビデオ理解のための新しいデータセットMM-AUを提案する。
MM-AUには1,727件の映像が収録されている。
安全運転認識のための誘導型事故映像理解フレームワーク(AdVersa-SD)を提案する。
論文 参考訳(メタデータ) (2024-03-01T10:42:52Z) - A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised
Traffic Accident Detection in Driving Videos [22.553356096143734]
本稿では,運転ビデオにおける教師なし交通事故検出のためのメモリ拡張型マルチタスク協調フレームワーク(MAMTCF)を提案する。
映像フレームの外観変化と物体の動きを同時にモデル化することにより,エゴ関連事故と非エゴ関連事故の両方をより正確に検出することができる。
論文 参考訳(メタデータ) (2023-07-27T01:45:13Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Camera-Radar Perception for Autonomous Vehicles and ADAS: Concepts,
Datasets and Metrics [77.34726150561087]
本研究の目的は、ADASおよび自動運転車のカメラおよびレーダーによる認識の現在のシナリオに関する研究を行うことである。
両センサと融合に関する概念と特徴を提示する。
本稿では、ディープラーニングに基づく検出とセグメンテーションタスクの概要と、車両の認識における主要なデータセット、メトリクス、課題、オープンな質問について説明する。
論文 参考訳(メタデータ) (2023-03-08T00:48:32Z) - TAD: A Large-Scale Benchmark for Traffic Accidents Detection from Video
Surveillance [2.1076255329439304]
既存の交通事故のデータセットは小規模で、監視カメラからではなく、オープンソースではない。
様々な次元による統合とアノテーションの後に,TADという大規模交通事故データセットが提案されている。
論文 参考訳(メタデータ) (2022-09-26T03:00:50Z) - Real-Time Accident Detection in Traffic Surveillance Using Deep Learning [0.8808993671472349]
本稿では,交通監視用交差点における事故検出のための新しい効率的な枠組みを提案する。
提案手法は,最先端のYOLOv4法に基づく効率的かつ高精度な物体検出を含む,3つの階層的なステップから構成される。
提案フレームワークのロバスト性は,様々な照明条件でYouTubeから収集した映像シーケンスを用いて評価する。
論文 参考訳(メタデータ) (2022-08-12T19:07:20Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - A Dynamic Spatial-temporal Attention Network for Early Anticipation of
Traffic Accidents [12.881094474374231]
本稿では,ダッシュカムビデオからの交通事故を早期に予測するための動的時空間アテンション(DSTA)ネットワークを提案する。
DTA(Dynamic Temporal Attention)と呼ばれるモジュールを用いてビデオシーケンスの識別時間セグメントを選択することを学ぶ
事故の空間的・時間的関係の特徴と景観的特徴は, Gated Recurrent Unit (GRU) ネットワークと共同で学習される。
論文 参考訳(メタデータ) (2021-06-18T15:58:53Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z) - VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized
Representation [74.56282712099274]
本稿では,ベクトルで表される個々の道路成分の空間的局所性を利用する階層型グラフニューラルネットワークであるVectorNetを紹介する。
ベクトル化高定義(HD)マップとエージェントトラジェクトリの操作により、ロッキーなレンダリングや計算集約的なConvNetエンコーディングのステップを避けることができる。
我々は、社内行動予測ベンチマークと最近リリースされたArgoverse予測データセットでVectorNetを評価した。
論文 参考訳(メタデータ) (2020-05-08T19:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。