論文の概要: Attribute-based Representations for Accurate and Interpretable Video
Anomaly Detection
- arxiv url: http://arxiv.org/abs/2212.00789v1
- Date: Thu, 1 Dec 2022 18:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:19:06.875550
- Title: Attribute-based Representations for Accurate and Interpretable Video
Anomaly Detection
- Title(参考訳): 正確かつ解釈可能な映像異常検出のための属性に基づく表現
- Authors: Tal Reiss, Yedid Hoshen
- Abstract要約: ビデオ異常検出(VAD)は多くの実用的な応用で難しいコンピュータビジョンタスクである。
本稿では,属性に基づく表現を用いて,VADの精度と解釈可能性の境界を推し進める手法を提案する。
私たちの手法は正確で、解釈可能で、実装が容易です。
- 参考スコア(独自算出の注目度): 34.2658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) is a challenging computer vision task with many
practical applications. As anomalies are inherently ambiguous, it is essential
for users to understand the reasoning behind a system's decision in order to
determine if the rationale is sound. In this paper, we propose a simple but
highly effective method that pushes the boundaries of VAD accuracy and
interpretability using attribute-based representations. Our method represents
every object by its velocity and pose. The anomaly scores are computed using a
density-based approach. Surprisingly, we find that this simple representation
is sufficient to achieve state-of-the-art performance in ShanghaiTech, the
largest and most complex VAD dataset. Combining our interpretable
attribute-based representations with implicit, deep representation yields
state-of-the-art performance with a $99.1\%, 93.3\%$, and $85.9\%$ AUROC on
Ped2, Avenue, and ShanghaiTech, respectively. Our method is accurate,
interpretable, and easy to implement.
- Abstract(参考訳): ビデオ異常検出(VAD)は多くの実用的な応用で難しいコンピュータビジョンタスクである。
異常は本質的に曖昧であるため,システム決定の背景にある推論を理解して合理的に判断することが不可欠である。
本稿では,属性に基づく表現を用いたvad精度と解釈可能性の境界をプッシュする,単純かつ高効率な手法を提案する。
我々の方法はすべての物体の速度とポーズを表す。
異常スコアは密度に基づくアプローチで計算される。
驚いたことに、この単純な表現は、最大かつ最も複雑なVADデータセットであるShanghaiTechの最先端のパフォーマンスを達成するのに十分である。
解釈可能な属性ベースの表現と暗黙的な表現を組み合わせることで、最先端のパフォーマンスが99.1\%、93.3\%、Ped2、アベニュー、上海TechのAUROCが85.9\%になる。
私たちの方法は正確で解釈可能で実装が容易です。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Long Range Object-Level Monocular Depth Estimation for UAVs [0.0]
本稿では,画像からモノクロ物体を長距離検出するための最先端手法の新たな拡張法を提案する。
まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。
次に,深度推定を分類問題とし,訓練損失の計算にソフトアルグマックス関数を導入する。
論文 参考訳(メタデータ) (2023-02-17T15:26:04Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Real-world Video Anomaly Detection by Extracting Salient Features in
Videos [0.0]
既存の方法は、ビデオの各セグメントの正常/異常状態を決定するために、MIL(Multiple-instance Learning)を使用していた。
本稿では,全ての入力セグメントから正常/異常を判断する上で重要な特徴を自動的に抽出する自己認識機構を備えた軽量モデルを提案する。
提案手法は,最先端手法と同等あるいは優れた精度を達成できる。
論文 参考訳(メタデータ) (2022-09-14T06:03:09Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。