論文の概要: Anomaly Detection in Aerial Videos with Transformers
- arxiv url: http://arxiv.org/abs/2209.13363v1
- Date: Sun, 25 Sep 2022 21:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:42:26.970180
- Title: Anomaly Detection in Aerial Videos with Transformers
- Title(参考訳): 変圧器を用いた空中映像の異常検出
- Authors: Pu Jin, Lichao Mou, Gui-Song Xia, Xiao Xiang Zhu
- Abstract要約: 我々は、空中ビデオの異常検出のための新しいデータセットDroneAnomalyを作成します。
87,488色のビデオフレーム(トレーニング用51,635フレーム、テスト用35,853フレーム)があり、サイズは640×640ドル/秒である。
本稿では,連続するビデオフレームを一連のチューブレットとして扱う新しいベースラインモデルAnomaly Detection with Transformers (ANDT)を提案する。
- 参考スコア(独自算出の注目度): 49.011385492802674
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unmanned aerial vehicles (UAVs) are widely applied for purposes of
inspection, search, and rescue operations by the virtue of low-cost,
large-coverage, real-time, and high-resolution data acquisition capacities.
Massive volumes of aerial videos are produced in these processes, in which
normal events often account for an overwhelming proportion. It is extremely
difficult to localize and extract abnormal events containing potentially
valuable information from long video streams manually. Therefore, we are
dedicated to developing anomaly detection methods to solve this issue. In this
paper, we create a new dataset, named DroneAnomaly, for anomaly detection in
aerial videos. This dataset provides 37 training video sequences and 22 testing
video sequences from 7 different realistic scenes with various anomalous
events. There are 87,488 color video frames (51,635 for training and 35,853 for
testing) with the size of $640 \times 640$ at 30 frames per second. Based on
this dataset, we evaluate existing methods and offer a benchmark for this task.
Furthermore, we present a new baseline model, ANomaly Detection with
Transformers (ANDT), which treats consecutive video frames as a sequence of
tubelets, utilizes a Transformer encoder to learn feature representations from
the sequence, and leverages a decoder to predict the next frame. Our network
models normality in the training phase and identifies an event with
unpredictable temporal dynamics as an anomaly in the test phase. Moreover, To
comprehensively evaluate the performance of our proposed method, we use not
only our Drone-Anomaly dataset but also another dataset. We will make our
dataset and code publicly available. A demo video is available at
https://youtu.be/ancczYryOBY. We make our dataset and code publicly available .
- Abstract(参考訳): 無人航空機(uavs)は、低コスト、大規模、リアルタイム、高解像度のデータ取得能力により、検査、捜索、救助活動に広く利用されている。
これらのプロセスで大量の空中ビデオが制作され、通常の出来事が圧倒的な割合を占めることが多い。
手動でビデオストリームから潜在的に価値のある情報を含む異常事象をローカライズし抽出することは極めて困難である。
そこで本研究では,この問題を解決するための異常検出手法の開発に専念する。
本稿では,空中ビデオにおける異常検出のための新しいデータセットDroneAnomalyを作成する。
このデータセットは、37のトレーニングビデオシーケンスと、さまざまな異常イベントを伴う7つの異なる現実的なシーンから22のテストビデオシーケンスを提供する。
87,488のカラービデオフレーム(トレーニング用51,635、テスト用35,853)があり、サイズは640 \times 640$、毎秒30フレームだ。
このデータセットに基づいて、既存のメソッドを評価し、このタスクのベンチマークを提供する。
さらに,連続する映像フレームを管路列として扱うトランスフォーマ(andt)を用いた新しいベースラインモデルを提案する。トランスコーダを用いて,シーケンスから特徴表現を学習し,デコーダを利用して次のフレームを予測する。
ネットワークはトレーニングフェーズの正規性をモデル化し,予測不能な時間ダイナミクスを持つ事象をテストフェーズの異常として識別する。
さらに,提案手法の性能を総合的に評価するために,ドローン異常データセットだけでなく,別のデータセットも使用する。
データセットとコードを公開します。
デモビデオはhttps://youtu.be/ancczYryOBY.comで公開されている。
データセットとコードを公開しています。
関連論文リスト
- VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - Anomaly detection in surveillance videos using transformer based
attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。
提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文 参考訳(メタデータ) (2022-06-03T12:19:39Z) - Anomaly Detection in Video Sequences: A Benchmark and Computational
Model [25.25968958782081]
本稿では,ビデオシーケンスにおける異常検出のベンチマークとして,新しい大規模異常検出(LAD)データベースを提案する。
通常のビデオクリップや異常なビデオクリップを含む2000の動画シーケンスが含まれており、クラッシュ、火災、暴力など14の異常なカテゴリーがある。
ビデオレベルラベル(異常/正常ビデオ、異常タイプ)やフレームレベルラベル(異常/正常ビデオフレーム)を含むアノテーションデータを提供し、異常検出を容易にする。
完全教師付き学習問題として異常検出を解くために,マルチタスク深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-16T06:34:38Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。