論文の概要: Memory-augmented Online Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2302.10719v1
- Date: Tue, 21 Feb 2023 15:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 14:43:54.407002
- Title: Memory-augmented Online Video Anomaly Detection
- Title(参考訳): メモリ拡張オンラインビデオ異常検出
- Authors: Leonardo Rossi, Vittorio Bernuzzi, Tomaso Fontanini, Massimo Bertozzi,
Andrea Prati
- Abstract要約: 周囲の状況を理解する能力は、自律走行車(AV)にとって最重要事項である
本稿では,AVを取り巻く異常の発生に即応して,リアルタイムに応答時間とオンライン・ファッションを保証できるシステムを提案する。
当社のアーキテクチャはMOVADと呼ばれる2つの主要なモジュールに依存しており、継続中の動作に関する情報を抽出するための短期メモリと、リモート過去の情報も考慮した長期メモリモジュールである。
- 参考スコア(独自算出の注目度): 4.598829696984454
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ability to understand the surrounding scene is of paramount importance
for Autonomous Vehicles (AVs). This paper presents a system capable to work in
a real time guaranteed response times and online fashion, giving an immediate
response to the arise of anomalies surrounding the AV, exploiting only the
videos captured by a dash-mounted camera. Our architecture, called MOVAD,
relies on two main modules: a short-term memory to extract information related
to the ongoing action, implemented by a Video Swin Transformer adapted to work
in an online scenario, and a long-term memory module that considers also remote
past information thanks to the use of a Long-Short Term Memory (LSTM) network.
We evaluated the performance of our method on Detection of Traffic Anomaly
(DoTA) dataset, a challenging collection of dash-mounted camera videos of
accidents. After an extensive ablation study, MOVAD is able to reach an AUC
score of 82.11%, surpassing the current state-of-the-art by +2.81 AUC. Our code
will be available on https://github.com/IMPLabUniPr/movad/tree/icip
- Abstract(参考訳): 周囲のシーンを理解する能力は、自律走行車(AV)にとって最重要事項である。
本稿では,AVを取り巻く異常の発生に即時対応し,ダッシュマウントカメラで撮影した映像のみを利用して,リアルタイムに応答時間とオンライン・ファッションを保証できるシステムを提案する。
当社のアーキテクチャはMOVADと呼ばれる2つの主要なモジュールに依存している: オンラインシナリオで動作するように適応されたビデオスウィントランスフォーマーによって実装された、進行中のアクションに関する情報を抽出する短期メモリと、Long-Short Term Memory (LSTM)ネットワークを利用することにより、リモートの過去の情報も考慮する長期メモリモジュール。
本研究では,事故現場のダッシュマウントカメラ映像の難読化である交通異常検出(DoTA)データセットの性能評価を行った。
大規模なアブレーション研究の後、MOVADはAUCの82.11%に達し、現在の最先端の2.81 AUCを上回った。
私たちのコードはhttps://github.com/IMPLabUniPr/movad/tree/icipで利用可能です。
関連論文リスト
- Online Episodic Memory Visual Query Localization with Egocentric Streaming Object Memory [17.956367558818076]
エピソードメモリ検索は、過去のビデオ観察オブジェクトや観測されたイベントから再収集できるウェアラブルデバイスを実現することを目的としている。
現在のタスクの定式化は、ユーザーがクエリを行うときに全ビデオ履歴にアクセス可能であるという"オフライン"の仮定に基づいている。
そこで我々は,オンライン・エピソード・メモリ・ビジュアル・エゴ・クエリ(OEM-VQL)の新たなタスクを紹介した。
論文 参考訳(メタデータ) (2024-11-25T21:07:25Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Local Memory Attention for Fast Video Semantic Segmentation [157.7618884769969]
既存の単一フレームセマンティックセグメンテーションモデルをビデオセマンティックセグメンテーションパイプラインに変換する新しいニューラルネットワークモジュールを提案する。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
論文 参考訳(メタデータ) (2021-01-05T18:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。