論文の概要: Bidirectional skip-frame prediction for video anomaly detection with intra-domain disparity-driven attention
- arxiv url: http://arxiv.org/abs/2407.15424v2
- Date: Tue, 23 Jul 2024 04:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 11:59:35.516683
- Title: Bidirectional skip-frame prediction for video anomaly detection with intra-domain disparity-driven attention
- Title(参考訳): ドメイン内不一致によるビデオ異常検出のための双方向スキップフレーム予測
- Authors: Jiahao Lyu, Minghua Zhao, Jing Hu, Runtao Xi, Xuewen Huang, Shuangli Du, Cheng Shi, Tian Ma,
- Abstract要約: デュアルストリームオートエンコーダをベースとしたBidirectional Skip-frame Prediction (BiSP) ネットワークを提案する。
BiSPは、トレーニング段階でフレームをスキップし、それぞれ前方および後方のフレーム予測を行う。
テストフェーズでは、双方向連続フレームを使用して、同一の中間フレームを共予測し、通常の事象と異常事象の相違度を拡大する。
- 参考スコア(独自算出の注目度): 10.827518243441741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread deployment of video surveillance devices and the demand for intelligent system development, video anomaly detection (VAD) has become an important part of constructing intelligent surveillance systems. Expanding the discriminative boundary between normal and abnormal events to enhance performance is the common goal and challenge of VAD. To address this problem, we propose a Bidirectional Skip-frame Prediction (BiSP) network based on a dual-stream autoencoder, from the perspective of learning the intra-domain disparity between different features. The BiSP skips frames in the training phase to achieve the forward and backward frame prediction respectively, and in the testing phase, it utilizes bidirectional consecutive frames to co-predict the same intermediate frames, thus expanding the degree of disparity between normal and abnormal events. The BiSP designs the variance channel attention and context spatial attention from the perspectives of movement patterns and object scales, respectively, thus ensuring the maximization of the disparity between normal and abnormal in the feature extraction and delivery with different dimensions. Extensive experiments from four benchmark datasets demonstrate the effectiveness of the proposed BiSP, which substantially outperforms state-of-the-art competing methods.
- Abstract(参考訳): ビデオ監視装置の普及とインテリジェントなシステム開発への需要により、ビデオ異常検出(VAD)はインテリジェントな監視システムの構築において重要な役割を担っている。
正常事象と異常事象の識別境界を広げてパフォーマンスを高めることが、VADの共通の目標と課題である。
この問題に対処するため,両ストリームオートエンコーダをベースとしたBidirectional Skip-frame Prediction (BiSP) ネットワークを提案する。
BiSPは、トレーニングフェーズのフレームをスキップして、それぞれ前方および後方のフレーム予測を行い、テストフェーズでは、双方向連続フレームを使用して、同一の中間フレームを同時予測し、通常のイベントと異常イベントの相違度を拡大する。
BiSPは, 移動パターンと物体スケールの視点から, 分散チャネルの注意とコンテキスト空間の注意をそれぞれ設計し, 特徴抽出における正常と異常の相違の最大化を, 異なる次元で確保する。
4つのベンチマークデータセットによる大規模な実験は、提案したBiSPの有効性を示し、最先端の競合手法を大幅に上回っている。
関連論文リスト
- Unsupervised Visible-Infrared ReID via Pseudo-label Correction and Modality-level Alignment [23.310509459311046]
UVI-ReID (unsupervised visible-infrared person re-identification) が近年注目されている。
従来手法では, UVI-ReIDを実現するためにモダリティ内クラスタリングとクロスモダリティ特徴マッチングが用いられていた。
論文 参考訳(メタデータ) (2024-04-10T02:03:14Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Dual Memory Units with Uncertainty Regulation for Weakly Supervised
Video Anomaly Detection [15.991784541576788]
ビデオとセグメントレベルのラベル指向の既存のアプローチは、主に異常データの表現の抽出に重点を置いている。
本研究では、正規データの表現と異常データの識別特徴の両方を学習するために、不確実性制御デュアルメモリユニット(UR-DMU)モデルを提案する。
我々の手法は、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-02-10T10:39:40Z) - Robust Domain Adaptive Object Detection with Unified Multi-Granularity Alignment [59.831917206058435]
ドメイン適応検出は、ターゲットドメイン上の検出器の一般化を改善することを目的としている。
近年のアプローチは、異なる粒度の特徴アライメントを通じて、逆学習を通じてドメイン適応を実現する。
ドメイン不変な特徴学習のための統合多重粒度アライメント(MGA)に基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-01T08:38:07Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - Error-Aware Spatial Ensembles for Video Frame Interpolation [50.63021118973639]
近年,ビデオフレーム(VFI)アルゴリズムは,データ駆動アルゴリズムと実装の両面で前例のない進歩により,大幅に改善されている。
近年の研究では、挑戦的なVFIシナリオに対処する手段として、高度な動き推定や新しいワープ手法が導入されている。
本研究は、光フローとIEの相関関係を詳細に検討することにより、中間フレームを異なるIEレベルに対応する異なる領域に分割する新しいエラー予測指標を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:15:38Z) - Video Anomaly Detection via Prediction Network with Enhanced
Spatio-Temporal Memory Exchange [21.334952965297667]
ビデオ異常検出は、ほとんどの異常は少なく、決定論的ではないため、難しい作業である。
大規模なメモリ交換を拡張した畳み込みLSTM自動エンコーダ予測フレームワークを設計する。
3つのベンチマークで評価した結果,我々のフレームワークは既存の予測に基づく異常検出手法よりも優れていた。
論文 参考訳(メタデータ) (2022-06-26T16:10:56Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。