論文の概要: Bounding Boxes and Probabilistic Graphical Models: Video Anomaly Detection Simplified
- arxiv url: http://arxiv.org/abs/2407.06000v2
- Date: Fri, 08 Nov 2024 10:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:19.403846
- Title: Bounding Boxes and Probabilistic Graphical Models: Video Anomaly Detection Simplified
- Title(参考訳): 境界ボックスと確率的グラフィカルモデル:ビデオ異常検出の簡易化
- Authors: Mia Siemon, Thomas B. Moeslund, Barry Norton, Kamal Nasrollahi,
- Abstract要約: オブジェクト境界ボックスの確率的解析としてビデオ異常検出のタスクを定式化する。
オブジェクトの表現は境界ボックスのみで、シーン内の異常事象を正しく識別するのに十分である、という仮説を立てる。
これは特に、カメラなどのエッジデバイス上で動作するビデオ監視のアプリケーションに恩恵をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 22.213150160758644
- License:
- Abstract: In this study, we formulate the task of Video Anomaly Detection as a probabilistic analysis of object bounding boxes. We hypothesize that the representation of objects via their bounding boxes only, can be sufficient to successfully identify anomalous events in a scene. The implied value of this approach is increased object anonymization, faster model training and fewer computational resources. This can particularly benefit applications within video surveillance running on edge devices such as cameras. We design our model based on human reasoning which lends itself to explaining model output in human-understandable terms. Meanwhile, the slowest model trains within less than 7 seconds on a 11th Generation Intel Core i9 Processor. While our approach constitutes a drastic reduction of problem feature space in comparison with prior art, we show that this does not result in a reduction in performance: the results we report are highly competitive on the benchmark datasets CUHK Avenue and ShanghaiTech, and significantly exceed on the latest State-of-the-Art results on StreetScene, which has so far proven to be the most challenging VAD dataset.
- Abstract(参考訳): 本研究では,オブジェクト境界ボックスの確率的解析としてビデオ異常検出のタスクを定式化する。
オブジェクトの表現は境界ボックスのみで、シーン内の異常事象を正しく識別するのに十分である、という仮説を立てる。
このアプローチの暗示的な価値は、オブジェクト匿名化の増加、モデルトレーニングの高速化、計算資源の削減である。
これは特に、カメラなどのエッジデバイス上で動作するビデオ監視のアプリケーションに恩恵をもたらす可能性がある。
我々は、人間の理解可能な言葉でモデル出力を説明するのに役立ち、人間の推論に基づくモデルの設計を行う。
一方、最も遅いモデルは第11世代Intel Core i9プロセッサで7秒未満でトレーニングされる。
提案手法は,従来の技術と比較して,問題特徴空間の大幅な削減を図っているが,性能の低下は生じていない。この結果はCUHK AvenueとShanghaiTechのベンチマークデータセットに対して非常に競争力があり,StreetSceneの最新のState-of-the-Art結果を大きく上回っている。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - A Lightweight Video Anomaly Detection Model with Weak Supervision and Adaptive Instance Selection [14.089888316857426]
本稿では,弱教師付きビデオ異常検出に焦点をあてる。
我々は,軽量なビデオ異常検出モデルを開発した。
我々のモデルは、最先端の手法と比較して、AUCのスコアに匹敵するか、さらに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-09T01:23:08Z) - Future Video Prediction from a Single Frame for Video Anomaly Detection [0.38073142980732994]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要であるが難しい課題である。
本稿では,ビデオ異常検出のための新しいプロキシタスクとして,将来のフレーム予測プロキシタスクを紹介する。
このプロキシタスクは、より長い動きパターンを学習する従来の手法の課題を軽減する。
論文 参考訳(メタデータ) (2023-08-15T14:04:50Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Assisting Scene Graph Generation with Self-Supervision [21.89909688056478]
本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。
比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-08-08T16:38:03Z) - A Video Analysis Method on Wanfang Dataset via Deep Neural Network [8.485930905198982]
本稿では,スポーツ競技におけるリアルタイム多目的検出機能と,ディープラーニングに基づく公共交通機関における歩行者フロー検出機能について述べる。
提案アルゴリズムに基づいて,主要なテストデータセットとしてwanfangスポーツコンペティションデータセットを採用する。
私たちの作業は、歩行者のフロー検出や歩行者のアラームタスクにも利用できます。
論文 参考訳(メタデータ) (2020-02-28T04:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。