論文の概要: Memory-augmented Online Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2302.10719v2
- Date: Wed, 27 Sep 2023 13:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 19:50:02.302991
- Title: Memory-augmented Online Video Anomaly Detection
- Title(参考訳): メモリ拡張オンラインビデオ異常検出
- Authors: Leonardo Rossi, Vittorio Bernuzzi, Tomaso Fontanini, Massimo Bertozzi,
Andrea Prati
- Abstract要約: 本稿では,ダッシュマウントカメラで撮影した映像のみを利用して,オンラインで動作可能なシステムを提案する。
モバドのAUCスコアは82.17%に達し、現在の最先端である+2.87 AUCを上回っている。
- 参考スコア(独自算出の注目度): 2.269915940890348
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ability to understand the surrounding scene is of paramount importance
for Autonomous Vehicles (AVs). This paper presents a system capable to work in
an online fashion, giving an immediate response to the arise of anomalies
surrounding the AV, exploiting only the videos captured by a dash-mounted
camera. Our architecture, called MOVAD, relies on two main modules: a
Short-Term Memory Module to extract information related to the ongoing action,
implemented by a Video Swin Transformer (VST), and a Long-Term Memory Module
injected inside the classifier that considers also remote past information and
action context thanks to the use of a Long-Short Term Memory (LSTM) network.
The strengths of MOVAD are not only linked to its excellent performance, but
also to its straightforward and modular architecture, trained in a end-to-end
fashion with only RGB frames with as less assumptions as possible, which makes
it easy to implement and play with. We evaluated the performance of our method
on Detection of Traffic Anomaly (DoTA) dataset, a challenging collection of
dash-mounted camera videos of accidents. After an extensive ablation study,
MOVAD is able to reach an AUC score of 82.17\%, surpassing the current
state-of-the-art by +2.87 AUC. Our code will be available on
https://github.com/IMPLabUniPr/movad/tree/movad_vad
- Abstract(参考訳): 周囲のシーンを理解する能力は、自律走行車(AV)にとって最重要事項である。
本稿では,車載カメラで撮影された映像のみを活用し,車載カメラ周辺の異常発生に対する即時対応として,オンライン方式で動作可能なシステムを提案する。
我々のアーキテクチャはMOVADと呼ばれる2つの主要なモジュールに依存している。ビデオスウィントランスフォーマー(VST)によって実装された、進行中のアクションに関する情報を抽出する短期メモリモジュールと、Long-Short Term Memory(LSTM)ネットワークを使うことで、リモートの過去の情報やアクションコンテキストも考慮した長期メモリモジュールである。
movadの強みは、その優れたパフォーマンスだけでなく、その単純でモジュール化されたアーキテクチャ、可能な限り少ない仮定でrgbフレームしか持たないエンドツーエンドでトレーニングされた、実装と操作が容易なこととも結びついている。
本研究では,事故現場のダッシュマウントカメラ映像の難読化である交通異常検出(DoTA)データセットの性能評価を行った。
大規模なアブレーション研究の後、MOVADはAUCの82.17\%に達し、現在の最先端の2.87 AUCを上回った。
私たちのコードはhttps://github.com/IMPLabUniPr/movad/tree/movad_vadで利用可能です。
関連論文リスト
- Online Episodic Memory Visual Query Localization with Egocentric Streaming Object Memory [17.956367558818076]
エピソードメモリ検索は、過去のビデオ観察オブジェクトや観測されたイベントから再収集できるウェアラブルデバイスを実現することを目的としている。
現在のタスクの定式化は、ユーザーがクエリを行うときに全ビデオ履歴にアクセス可能であるという"オフライン"の仮定に基づいている。
そこで我々は,オンライン・エピソード・メモリ・ビジュアル・エゴ・クエリ(OEM-VQL)の新たなタスクを紹介した。
論文 参考訳(メタデータ) (2024-11-25T21:07:25Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Local Memory Attention for Fast Video Semantic Segmentation [157.7618884769969]
既存の単一フレームセマンティックセグメンテーションモデルをビデオセマンティックセグメンテーションパイプラインに変換する新しいニューラルネットワークモジュールを提案する。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
論文 参考訳(メタデータ) (2021-01-05T18:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。