Fugu-MT 論文翻訳(概要): Attribute-based Representations for Accurate and Interpretable Video Anomaly Detection

論文の概要: Attribute-based Representations for Accurate and Interpretable Video Anomaly Detection

arxiv url: http://arxiv.org/abs/2212.00789v1
Date: Thu, 1 Dec 2022 18:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 15:19:06.875550
Title: Attribute-based Representations for Accurate and Interpretable Video Anomaly Detection
Title（参考訳）: 正確かつ解釈可能な映像異常検出のための属性に基づく表現
Authors: Tal Reiss, Yedid Hoshen
Abstract要約: ビデオ異常検出(VAD)は多くの実用的な応用で難しいコンピュータビジョンタスクである。本稿では,属性に基づく表現を用いて,VADの精度と解釈可能性の境界を推し進める手法を提案する。私たちの手法は正確で、解釈可能で、実装が容易です。
参考スコア（独自算出の注目度）: 34.2658286826597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video anomaly detection (VAD) is a challenging computer vision task with many practical applications. As anomalies are inherently ambiguous, it is essential for users to understand the reasoning behind a system's decision in order to determine if the rationale is sound. In this paper, we propose a simple but highly effective method that pushes the boundaries of VAD accuracy and interpretability using attribute-based representations. Our method represents every object by its velocity and pose. The anomaly scores are computed using a density-based approach. Surprisingly, we find that this simple representation is sufficient to achieve state-of-the-art performance in ShanghaiTech, the largest and most complex VAD dataset. Combining our interpretable attribute-based representations with implicit, deep representation yields state-of-the-art performance with a $99.1\%, 93.3\%$, and $85.9\%$ AUROC on Ped2, Avenue, and ShanghaiTech, respectively. Our method is accurate, interpretable, and easy to implement.
Abstract（参考訳）: ビデオ異常検出(VAD)は多くの実用的な応用で難しいコンピュータビジョンタスクである。異常は本質的に曖昧であるため,システム決定の背景にある推論を理解して合理的に判断することが不可欠である。本稿では,属性に基づく表現を用いたvad精度と解釈可能性の境界をプッシュする,単純かつ高効率な手法を提案する。我々の方法はすべての物体の速度とポーズを表す。異常スコアは密度に基づくアプローチで計算される。驚いたことに、この単純な表現は、最大かつ最も複雑なVADデータセットであるShanghaiTechの最先端のパフォーマンスを達成するのに十分である。解釈可能な属性ベースの表現と暗黙的な表現を組み合わせることで、最先端のパフォーマンスが99.1\%、93.3\%、Ped2、アベニュー、上海TechのAUROCが85.9\%になる。私たちの方法は正確で解釈可能で実装が容易です。

関連論文リスト

RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification [14.448350657613368]
RAVIDは、視覚検索強化生成(RAG)を活用するAI生成画像検出のための最初のフレームワークである提案手法では,表現学習を改善するためにカテゴリ関連プロンプトを付加した細調整のCLIP画像エンコーダであるRAVID CLIPを利用する。 RAVIDの平均精度は80.27%で、最先端のC2P-CLIPでは63.44%である。
論文参考訳（メタデータ） (2025-08-05T23:10:56Z)
Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文参考訳（メタデータ） (2024-07-29T02:12:11Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
Robust compressive tracking via online weighted multiple instance learning [0.6813925418351435]
本稿では,スパース表現と重み付きマルチインスタンス学習(WMIL)アルゴリズムに基づく粗い検索戦略を統合することで,ビジュアルオブジェクト追跡アルゴリズムを提案する。提案手法は,他のトラッカーと比較して,粗大な探索法によりより複雑度が低く,重要なサンプルの重み付けも可能である。
論文参考訳（メタデータ） (2024-06-14T10:48:17Z)
DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。本稿では,DVMNet(Deep Voxel Matching Network)を提案する。提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文参考訳（メタデータ） (2024-03-20T15:41:32Z)
Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文参考訳（メタデータ） (2023-12-18T09:52:14Z)
Unsupervised Video Anomaly Detection with Diffusion Models Conditioned on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文参考訳（メタデータ） (2023-07-04T07:36:48Z)
DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文参考訳（メタデータ） (2023-04-01T08:06:43Z)
DDP: Diffusion Model for Dense Visual Prediction [71.55770562024782]
本研究では,条件付き拡散パイプラインに基づく高密度視覚予測のための,シンプルで効率的かつ強力なフレームワークを提案する。 DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。 DDPは、従来の単段階識別法とは対照的に、動的推論や不確実性認識などの魅力的な特性を示す。
論文参考訳（メタデータ） (2023-03-30T17:26:50Z)
Long Range Object-Level Monocular Depth Estimation for UAVs [0.0]
本稿では,画像からモノクロ物体を長距離検出するための最先端手法の新たな拡張法を提案する。まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。次に,深度推定を分類問題とし,訓練損失の計算にソフトアルグマックス関数を導入する。
論文参考訳（メタデータ） (2023-02-17T15:26:04Z)
ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文参考訳（メタデータ） (2022-12-12T13:10:19Z)
CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文参考訳（メタデータ） (2022-11-24T03:27:00Z)
Real-world Video Anomaly Detection by Extracting Salient Features in Videos [0.0]
既存の方法は、ビデオの各セグメントの正常/異常状態を決定するために、MIL(Multiple-instance Learning)を使用していた。本稿では,全ての入力セグメントから正常/異常を判断する上で重要な特徴を自動的に抽出する自己認識機構を備えた軽量モデルを提案する。提案手法は,最先端手法と同等あるいは優れた精度を達成できる。
論文参考訳（メタデータ） (2022-09-14T06:03:09Z)
Improving Point Cloud Based Place Recognition with Ranking-based Loss and Large Batch Training [1.116812194101501]
本稿では,識別可能な3Dポイントクラウド記述子を計算するための,シンプルで効果的な学習手法を提案する。本稿では,画像検索における最近の進歩を取り入れ,異なる平均精度近似に基づく損失関数の修正版を提案する。
論文参考訳（メタデータ） (2022-03-02T09:29:28Z)
Don't Lie to Me! Robust and Efficient Explainability with Verified Perturbation Analysis [6.15738282053772]
摂動空間を徹底的に探索することを保証する最初の説明可能性法であるEVAを紹介する。モデル決定を駆動する可能性が最も高い入力変数を効率よく特徴付けるために、検証された摂動解析の有益性を利用する。
論文参考訳（メタデータ） (2022-02-15T21:13:55Z)
Analysis of voxel-based 3D object detection methods efficiency for real-time embedded systems [93.73198973454944]
本稿では, ボクセルをベースとした2つの3次元物体検出手法について述べる。実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことが確認できた。この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。
論文参考訳（メタデータ） (2021-05-21T12:40:59Z)
Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文参考訳（メタデータ） (2020-09-23T10:40:03Z)
Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文参考訳（メタデータ） (2020-07-21T10:45:05Z)
A Systematic Evaluation of Object Detection Networks for Scientific Plots [17.882932963813985]
PlotQAデータセット上で、様々なSOTAオブジェクト検出ネットワークの精度をトレーニングし比較する。 0.5の標準IOU設定では、ほとんどのネットワークはプロット内の比較的単純な物体を検出する場合、mAPスコアが80%以上である。しかし、パフォーマンスは0.9のより厳格なIOUで評価されると大幅に低下し、最高のモデルでmAPは35.70%となった。
論文参考訳（メタデータ） (2020-07-05T05:30:53Z)
Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。提案手法は5つの公開データセットで評価される。
論文参考訳（メタデータ） (2020-03-12T11:09:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。