Fugu-MT 論文翻訳(概要): VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection

論文の概要: VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection

arxiv url: http://arxiv.org/abs/2409.16225v3
Date: Mon, 30 Sep 2024 16:36:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 17:52:35.647754
Title: VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection
Title（参考訳）: VideoPatchCore: ビデオ異常検出のための正規性を記憶する効果的な方法
Authors: Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sanghyun Park,
Abstract要約: ビデオ異常検出(VAD)は、コンピュータビジョン内の映像分析と監視において重要な課題である。本稿では,VideoPatchCore と呼ばれる VAD の効率的なメモリ手法を提案する。提案手法では,メモリ最適化を優先する構造を導入し,映像データの特徴に合わせて3種類のメモリを設定する。
参考スコア（独自算出の注目度）: 1.9384004397336387
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video anomaly detection (VAD) is a crucial task in video analysis and surveillance within computer vision. Currently, VAD is gaining attention with memory techniques that store the features of normal frames. The stored features are utilized for frame reconstruction, identifying an abnormality when a significant difference exists between the reconstructed and input frames. However, this approach faces several challenges due to the simultaneous optimization required for both the memory and encoder-decoder model. These challenges include increased optimization difficulty, complexity of implementation, and performance variability depending on the memory size. To address these challenges,we propose an effective memory method for VAD, called VideoPatchCore. Inspired by PatchCore, our approach introduces a structure that prioritizes memory optimization and configures three types of memory tailored to the characteristics of video data. This method effectively addresses the limitations of existing memory-based methods, achieving good performance comparable to state-of-the-art methods. Furthermore, our method requires no training and is straightforward to implement, making VAD tasks more accessible. Our code is available online at github.com/SkiddieAhn/Paper-VideoPatchCore.
Abstract（参考訳）: ビデオ異常検出(VAD)は、コンピュータビジョン内の映像分析と監視において重要な課題である。現在、VADは通常のフレームの特徴を格納するメモリ技術で注目を集めている。記憶された特徴をフレーム再構成に利用し、再構成されたフレームと入力フレームの間に有意差が存在する場合の異常を識別する。しかし、メモリモデルとエンコーダ-デコーダモデルの両方で同時に最適化する必要があるため、このアプローチはいくつかの課題に直面している。これらの課題には、メモリサイズに応じて最適化の難しさ、実装の複雑さ、パフォーマンスのばらつきなどがある。これらの課題に対処するために,VAD の効率的なメモリ手法である VideoPatchCore を提案する。 PatchCoreにインスパイアされた本手法では,メモリ最適化を優先する構造を導入し,ビデオデータの特徴に合わせて3種類のメモリを設定する。この方法は、既存のメモリベースのメソッドの制限を効果的に解決し、最先端のメソッドに匹敵する優れたパフォーマンスを実現する。さらに,本手法ではトレーニングを必要とせず,簡単に実装できるため,VADタスクのアクセス性が向上する。私たちのコードはgithub.com/SkiddieAhn/Paper-VideoPatchCoreでオンラインで公開されています。

関連論文リスト

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory [63.32726513381937]
現在のビデオエディタは、シーケンシャルな編集の相互一貫性を維持するのに苦労している。 Memory-V2Vは、既存のビデオ間モデルを明示的なメモリで拡張するフレームワークである。メモリ-V2Vは、計算オーバーヘッドを最小限に抑えながら、はるかに相反するビデオを生成する。
論文参考訳（メタデータ） (2026-01-22T19:59:17Z)
Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文参考訳（メタデータ） (2025-07-03T17:59:54Z)
VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。 VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文参考訳（メタデータ） (2025-03-12T13:30:40Z)
Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文参考訳（メタデータ） (2024-11-29T04:12:13Z)
LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文参考訳（メタデータ） (2024-11-05T05:36:17Z)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳（メタデータ） (2024-10-28T07:13:25Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Memory-Efficient Continual Learning Object Segmentation for Long Video [7.9190306016374485]
本稿では,オンラインVOS手法のメモリ要求を低減し,長ビデオのモデリング精度と一般化を向上する2つの新しい手法を提案する。事前学習した知識を保存するための継続的学習技術の成功に動機づけられた、Gated-Regularizer Continual Learning (GRCL)とRestruction-based Memory Selection Continual Learning (RMSCL)を提案する。実験結果から,提案手法はオンラインVOSモデルの性能を8%以上向上し,長期画像データセットのロバスト性の向上を図っている。
論文参考訳（メタデータ） (2023-09-26T21:22:03Z)
READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T08:31:16Z)
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2022-11-19T09:57:01Z)
Memory Efficient Temporal & Visual Graph Model for Unsupervised Video Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文参考訳（メタデータ） (2022-08-13T02:56:10Z)
Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-07-16T12:18:04Z)
Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文参考訳（メタデータ） (2022-05-08T02:24:43Z)
MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。 MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文参考訳（メタデータ） (2022-01-20T18:59:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。