論文の概要: Attribute-based Representations for Accurate and Interpretable Video
Anomaly Detection
- arxiv url: http://arxiv.org/abs/2212.00789v1
- Date: Thu, 1 Dec 2022 18:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:19:06.875550
- Title: Attribute-based Representations for Accurate and Interpretable Video
Anomaly Detection
- Title(参考訳): 正確かつ解釈可能な映像異常検出のための属性に基づく表現
- Authors: Tal Reiss, Yedid Hoshen
- Abstract要約: ビデオ異常検出(VAD)は多くの実用的な応用で難しいコンピュータビジョンタスクである。
本稿では,属性に基づく表現を用いて,VADの精度と解釈可能性の境界を推し進める手法を提案する。
私たちの手法は正確で、解釈可能で、実装が容易です。
- 参考スコア(独自算出の注目度): 34.2658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) is a challenging computer vision task with many
practical applications. As anomalies are inherently ambiguous, it is essential
for users to understand the reasoning behind a system's decision in order to
determine if the rationale is sound. In this paper, we propose a simple but
highly effective method that pushes the boundaries of VAD accuracy and
interpretability using attribute-based representations. Our method represents
every object by its velocity and pose. The anomaly scores are computed using a
density-based approach. Surprisingly, we find that this simple representation
is sufficient to achieve state-of-the-art performance in ShanghaiTech, the
largest and most complex VAD dataset. Combining our interpretable
attribute-based representations with implicit, deep representation yields
state-of-the-art performance with a $99.1\%, 93.3\%$, and $85.9\%$ AUROC on
Ped2, Avenue, and ShanghaiTech, respectively. Our method is accurate,
interpretable, and easy to implement.
- Abstract(参考訳): ビデオ異常検出(VAD)は多くの実用的な応用で難しいコンピュータビジョンタスクである。
異常は本質的に曖昧であるため,システム決定の背景にある推論を理解して合理的に判断することが不可欠である。
本稿では,属性に基づく表現を用いたvad精度と解釈可能性の境界をプッシュする,単純かつ高効率な手法を提案する。
我々の方法はすべての物体の速度とポーズを表す。
異常スコアは密度に基づくアプローチで計算される。
驚いたことに、この単純な表現は、最大かつ最も複雑なVADデータセットであるShanghaiTechの最先端のパフォーマンスを達成するのに十分である。
解釈可能な属性ベースの表現と暗黙的な表現を組み合わせることで、最先端のパフォーマンスが99.1\%、93.3\%、Ped2、アベニュー、上海TechのAUROCが85.9\%になる。
私たちの方法は正確で解釈可能で実装が容易です。
関連論文リスト
- Robust compressive tracking via online weighted multiple instance learning [0.6813925418351435]
本稿では,スパース表現と重み付きマルチインスタンス学習(WMIL)アルゴリズムに基づく粗い検索戦略を統合することで,ビジュアルオブジェクト追跡アルゴリズムを提案する。
提案手法は,他のトラッカーと比較して,粗大な探索法によりより複雑度が低く,重要なサンプルの重み付けも可能である。
論文 参考訳(メタデータ) (2024-06-14T10:48:17Z) - DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - DDP: Diffusion Model for Dense Visual Prediction [71.55770562024782]
本研究では,条件付き拡散パイプラインに基づく高密度視覚予測のための,シンプルで効率的かつ強力なフレームワークを提案する。
DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。
DDPは、従来の単段階識別法とは対照的に、動的推論や不確実性認識などの魅力的な特性を示す。
論文 参考訳(メタデータ) (2023-03-30T17:26:50Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Improving Point Cloud Based Place Recognition with Ranking-based Loss
and Large Batch Training [1.116812194101501]
本稿では,識別可能な3Dポイントクラウド記述子を計算するための,シンプルで効果的な学習手法を提案する。
本稿では,画像検索における最近の進歩を取り入れ,異なる平均精度近似に基づく損失関数の修正版を提案する。
論文 参考訳(メタデータ) (2022-03-02T09:29:28Z) - Don't Lie to Me! Robust and Efficient Explainability with Verified
Perturbation Analysis [6.15738282053772]
摂動空間を徹底的に探索することを保証する最初の説明可能性法であるEVAを紹介する。
モデル決定を駆動する可能性が最も高い入力変数を効率よく特徴付けるために、検証された摂動解析の有益性を利用する。
論文 参考訳(メタデータ) (2022-02-15T21:13:55Z) - Analysis of voxel-based 3D object detection methods efficiency for
real-time embedded systems [93.73198973454944]
本稿では, ボクセルをベースとした2つの3次元物体検出手法について述べる。
実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことが確認できた。
この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。
論文 参考訳(メタデータ) (2021-05-21T12:40:59Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z) - A Systematic Evaluation of Object Detection Networks for Scientific
Plots [17.882932963813985]
PlotQAデータセット上で、様々なSOTAオブジェクト検出ネットワークの精度をトレーニングし比較する。
0.5の標準IOU設定では、ほとんどのネットワークはプロット内の比較的単純な物体を検出する場合、mAPスコアが80%以上である。
しかし、パフォーマンスは0.9のより厳格なIOUで評価されると大幅に低下し、最高のモデルでmAPは35.70%となった。
論文 参考訳(メタデータ) (2020-07-05T05:30:53Z) - Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。
エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。
提案手法は5つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-03-12T11:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。