Fugu-MT 論文翻訳(概要): Unveiling the Unseen: A Comprehensive Survey on Explainable Anomaly Detection in Images and Videos

論文の概要: Unveiling the Unseen: A Comprehensive Survey on Explainable Anomaly Detection in Images and Videos

arxiv url: http://arxiv.org/abs/2302.06670v4
Date: Fri, 15 Aug 2025 23:09:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:09.55048
Title: Unveiling the Unseen: A Comprehensive Survey on Explainable Anomaly Detection in Images and Videos
Title（参考訳）: 未知視:画像・ビデオにおける説明可能な異常検出に関する包括的調査
Authors: Yizhou Wang, Dongliang Guo, Sheng Li, Octavia Camps, Yun Fu,
Abstract要約: 画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習や現実世界のアプリケーションにおいて不可欠である。本稿では,説明可能な2次元視覚異常検出(X-VAD)に焦点を当てた初の包括的調査を行う。本稿では,その基礎技術によって分類された説明可能な手法の文献レビューを行う。我々は、将来的な方向性と、説明品質の定量化を含むオープンな問題について議論する。
参考スコア（独自算出の注目度）: 49.07140708026425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Anomaly detection and localization in visual data, including images and videos, are crucial in machine learning and real-world applications. Despite rapid advancements in visual anomaly detection (VAD), interpreting these often black-box models and explaining why specific instances are flagged as anomalous remains challenging. This paper provides the first comprehensive survey focused specifically on explainable 2D visual anomaly detection (X-VAD), covering methods for both images (IAD) and videos (VAD). We first introduce the background of IAD and VAD. Then, as the core contribution, we present a thorough literature review of explainable methods, categorized by their underlying techniques (e.g., attention-based, generative model-based, reasoning-based, foundation model-based). We analyze the commonalities and differences in applying these methods across image and video modalities, highlighting modality-specific challenges and opportunities for explainability. Additionally, we summarize relevant datasets and evaluation metrics, discussing both standard performance metrics and emerging approaches for assessing explanation quality (e.g., faithfulness, stability). Finally, we discuss promising future directions and open problems, including quantifying explanation quality, explaining diverse AD paradigms (SSL, zero-shot), enhancing context-awareness, leveraging foundation models responsibly, and addressing real-world constraints like efficiency and robustness. A curated collection of related resources is available at https://github.com/wyzjack/Awesome-XAD.
Abstract（参考訳）: 画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習や現実世界のアプリケーションにおいて不可欠である。視覚異常検出(VAD)の急速な進歩にもかかわらず、これらのしばしば発生するブラックボックスモデルを解釈し、なぜ特定のインスタンスが異常としてフラグ付けされるのかを説明する。本稿では、説明可能な2次元視覚異常検出(X-VAD)、画像(IAD)とビデオ(VAD)の両方の手法に焦点を当てた、初めての総合的な調査を行う。 IAD と VAD の背景をまず紹介する。次に,本研究の中心的貢献として,その基礎技術(注意に基づく,生成モデルに基づく,推論に基づく,基礎モデルに基づく)に分類した,説明可能な手法の詳細な文献レビューを紹介する。我々は、これらの手法を画像やビデオのモダリティに適用する際の共通点と相違点を分析し、モダリティ固有の課題と説明可能性の機会を強調した。さらに、関連するデータセットと評価指標を要約し、標準的なパフォーマンス指標と、説明品質(例えば、忠実さ、安定性)を評価する新しいアプローチの両方について議論する。最後に、説明品質の定量化、多様なADパラダイム(SSL、ゼロショット)の説明、コンテキスト認識の強化、基礎モデルの利用、効率性や堅牢性といった現実的な制約への対処など、将来的な方向性とオープンな課題について論じる。関連リソースのキュレートされたコレクションはhttps://github.com/wyzjack/Awesome-XADで公開されている。

関連論文リスト

Track Any Anomalous Object: A Granular Video Anomaly Detection Pipeline [63.96226274616927]
Track Any Anomalous Object (TAO)と呼ばれる新しいフレームワークでは、詳細なビデオ異常検出パイプラインが導入されている。各画素に異常スコアを割り当てる手法とは異なり、我々の手法は問題から異常オブジェクトの画素レベルの追跡に変換する。実験の結果、TAOは新しいベンチマークを精度と堅牢性で設定した。
論文参考訳（メタデータ） (2025-06-05T15:49:39Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文参考訳（メタデータ） (2023-11-13T02:54:17Z)
PAD: A Dataset and Benchmark for Pose-agnostic Anomaly Detection [28.973078719467516]
我々は,多目的異常検出データセットとPose-Agnostic Anomaly Detectionベンチマークを開発する。具体的には、さまざまなポーズと、シミュレーションと実環境の両方で高品質で多様な3D異常を持つ20個の複合形状のレゴ玩具を用いて、MADを構築します。また,ポーズに依存しない異常検出のために,MADを用いて訓練した新しいOmniposeADを提案する。
論文参考訳（メタデータ） (2023-10-11T17:59:56Z)
Understanding the Challenges and Opportunities of Pose-based Anomaly Detection [2.924868086534434]
ポーズベースの異常検出(Pose-based anomaly detection)は、ビデオフレームから抽出された人間のポーズを調べることによって、異常な出来事や行動を検出するビデオ分析技術である。本研究では、ポーズに基づく異常検出の難しさをよりよく理解するために、2つのよく知られたビデオ異常データセットの特徴を分析し、定量化する。これらの実験は、ポーズベースの異常検出と現在利用可能なデータセットをより理解する上で有益であると考えています。
論文参考訳（メタデータ） (2023-03-09T18:09:45Z)
Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection [90.32910087103744]
ラベル付き異常な例は、多くの現実世界のアプリケーションでよく見られる。これらの異常例は、アプリケーション固有の異常について貴重な知識を提供する。トレーニング中に見られる異常は、可能なあらゆる種類の異常を説明できないことが多い。本稿では,オープンセット型教師付き異常検出に取り組む。
論文参考訳（メタデータ） (2022-03-28T05:21:37Z)
A Survey of Visual Sensory Anomaly Detection [53.23336329817023]
視覚感覚異常検出(AD)はコンピュータビジョンにおいて重要な問題である。視覚感覚のADとカテゴリーを,異常の形で3段階にまとめて検討した。
論文参考訳（メタデータ） (2022-02-14T19:50:03Z)
Approaches Toward Physical and General Video Anomaly Detection [0.0]
ビデオにおける異常検出は、多くの製造、保守、実生活環境における誤動作の自動検出を可能にする。 6つの異なるビデオクラスを含む物理異常軌道(Physal Anomalous Trajectory)データセットを紹介する。我々は、高度に可変なシーンで異常なアクティビティを発見すべきという、さらに難しいベンチマークを提案する。
論文参考訳（メタデータ） (2021-12-14T18:57:44Z)
A Critical Study on the Recent Deep Learning Based Semi-Supervised Video Anomaly Detection Methods [3.198144010381572]
本稿では,この分野の研究者を新たな視点に紹介し,最近の深層学習に基づく半教師付きビデオ異常検出手法についてレビューする。私たちのゴールは、より効果的なビデオ異常検出方法の開発を支援することです。
論文参考訳（メタデータ） (2021-11-02T14:00:33Z)
Self-Supervised Representation Learning for Visual Anomaly Detection [9.642625267699488]
本稿では,画像映像における異常検出の問題点を考察し,新しい視覚的異常検出手法を提案する。光フロー情報を用いることなくビデオフレーム間の時間的コヒーレンスを学習するための,簡単なセルフスーパービジョンアプローチを提案する。この直感的なアプローチは、UCF101およびILSVRC2015ビデオデータセット上の画像やビデオの多くの方法と比較して、視覚異常検出の優れた性能を示している。
論文参考訳（メタデータ） (2020-06-17T04:37:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。