論文の概要: Video Anomaly Detection by Estimating Likelihood of Representations
- arxiv url: http://arxiv.org/abs/2012.01468v1
- Date: Wed, 2 Dec 2020 19:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 04:06:28.235372
- Title: Video Anomaly Detection by Estimating Likelihood of Representations
- Title(参考訳): 表現の確率推定による映像異常検出
- Authors: Yuqi Ouyang, Victor Sanchez
- Abstract要約: ビデオ異常は、モーション表現、オブジェクトのローカライゼーション、アクション認識など、多くのサブタスクを解決するため、困難なタスクである。
伝統的に、この課題に対する解決策は、これらの特徴の空間的接続を無視しながら、ビデオフレームとその低次元特徴のマッピングに焦点を当ててきた。
最近のソリューションでは、K-Meansのようなハードクラスタリング技術を用いてこれらの空間的接続を分析することや、潜伏した特徴を一般的な理解にマップするためにニューラルネットワークを適用することに焦点を当てている。
潜在特徴空間における映像異常を解決するために,このタスクを密度推定問題に転送するための深い確率モデルを提案する。
- 参考スコア(独自算出の注目度): 21.879366166261228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection is a challenging task not only because it involves
solving many sub-tasks such as motion representation, object localization and
action recognition, but also because it is commonly considered as an
unsupervised learning problem that involves detecting outliers. Traditionally,
solutions to this task have focused on the mapping between video frames and
their low-dimensional features, while ignoring the spatial connections of those
features. Recent solutions focus on analyzing these spatial connections by
using hard clustering techniques, such as K-Means, or applying neural networks
to map latent features to a general understanding, such as action attributes.
In order to solve video anomaly in the latent feature space, we propose a deep
probabilistic model to transfer this task into a density estimation problem
where latent manifolds are generated by a deep denoising autoencoder and
clustered by expectation maximization. Evaluations on several benchmarks
datasets show the strengths of our model, achieving outstanding performance on
challenging datasets.
- Abstract(参考訳): ビデオ異常検出は、動作表現、オブジェクトのローカライゼーション、アクション認識といった多くのサブタスクを解決することだけでなく、異常値の検出を伴う教師なし学習問題として一般的に考えられているため、難しい課題である。
伝統的に、この課題の解決策は、ビデオフレームとその低次元特徴のマッピングに焦点を合わせ、それらの特徴の空間的接続を無視している。
最近のソリューションでは、K-Meansのようなハードクラスタリング技術を使用してこれらの空間的接続を分析することや、ニューラルネットワークを適用して潜在特徴をアクション属性などの一般的な理解にマップすることに焦点を当てている。
潜時特徴空間における映像異常を解決するために,このタスクを,潜時多様体が深い復調オートエンコーダによって生成され,期待値の最大化によりクラスタ化される密度推定問題に転送する深部確率モデルを提案する。
いくつかのベンチマークデータセットの評価は、我々のモデルの強みを示し、挑戦的なデータセット上で優れたパフォーマンスを達成する。
関連論文リスト
- HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
本稿では,新しい階層グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
提案手法は,大規模マルチモーダルモデル上での重勾配計算を回避し,従来の手法の限界を回避する。
我々のモデルは,従来のセグメンテーションベースやマルチモーダルアプローチの制約を伴わずに,リアルタイムビデオ解析のための実用的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-27T01:09:07Z) - Understanding the Challenges and Opportunities of Pose-based Anomaly
Detection [2.924868086534434]
ポーズベースの異常検出(Pose-based anomaly detection)は、ビデオフレームから抽出された人間のポーズを調べることによって、異常な出来事や行動を検出するビデオ分析技術である。
本研究では、ポーズに基づく異常検出の難しさをよりよく理解するために、2つのよく知られたビデオ異常データセットの特徴を分析し、定量化する。
これらの実験は、ポーズベースの異常検出と現在利用可能なデータセットをより理解する上で有益であると考えています。
論文 参考訳(メタデータ) (2023-03-09T18:09:45Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - A Topological Approach for Motion Track Discrimination [10.72000349055617]
我々は,映像系列から抽出したターゲットトラックの特徴を,位相的特徴を識別するデータとして利用する。
特に,広視野映像ストリームから抽出した動線から計算した動的統計量の時間遅延埋め込みから永続的ホモロジーを計算する。
論文 参考訳(メタデータ) (2021-02-10T19:25:38Z) - Graph Convolutional Networks for traffic anomaly [4.172516437934823]
イベント検出は輸送において重要なタスクであり、そのタスクは大規模なイベントが都市交通ネットワークの大部分を破壊した時点のポイントを検出することである。
空間的および時間的交通パターンを完全に把握することは課題であるが、効果的な異常検出には重要な役割を果たす。
我々は, 交通条件を表す有向重み付きグラフ群において, 時間間隔毎に異常を検知する新しい手法で問題を定式化する。
論文 参考訳(メタデータ) (2020-12-25T22:36:22Z) - Unsupervised Spatio-temporal Latent Feature Clustering for
Multiple-object Tracking and Segmentation [0.5591659577198183]
本稿では,時間的識別タスクを異種時間的クラスタリング問題として扱う戦略を提案する。
我々は、畳み込みと完全に接続されたオートエンコーダを用いて、セグメンテーションマスクと検出バウンディングボックスから識別特徴を学習する。
以上の結果から,本手法はいくつかの最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。