Fugu-MT 論文翻訳(概要): FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

論文の概要: FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

arxiv url: http://arxiv.org/abs/2404.13671v2
Date: Fri, 26 Jul 2024 02:42:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 17:52:18.216615
Title: FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization
Title（参考訳）: FiLo:ファイングラインド記述によるゼロショット異常検出と高品質な局所化
Authors: Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Hao Li, Ming Tang, Jinqiao Wang,
Abstract要約: 本稿では,新しいゼロショット異常検出法であるFiLoを提案する。 FiLoは、適応学習されたFG-Des(FG-Des)と位置強調された高品質なローカライゼーション(HQ-Loc)の2つのコンポーネントから構成される。 MVTecやVisAのようなデータセットの実験結果から、FiLoは検出とローカライゼーションの両方においてZSADの性能を大幅に向上することが示された。
参考スコア（独自算出の注目度）: 31.854923603517264
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Zero-shot anomaly detection (ZSAD) methods entail detecting anomalies directly without access to any known normal or abnormal samples within the target item categories. Existing approaches typically rely on the robust generalization capabilities of multimodal pretrained models, computing similarities between manually crafted textual features representing "normal" or "abnormal" semantics and image features to detect anomalies and localize anomalous patches. However, the generic descriptions of "abnormal" often fail to precisely match diverse types of anomalies across different object categories. Additionally, computing feature similarities for single patches struggles to pinpoint specific locations of anomalies with various sizes and scales. To address these issues, we propose a novel ZSAD method called FiLo, comprising two components: adaptively learned Fine-Grained Description (FG-Des) and position-enhanced High-Quality Localization (HQ-Loc). FG-Des introduces fine-grained anomaly descriptions for each category using Large Language Models (LLMs) and employs adaptively learned textual templates to enhance the accuracy and interpretability of anomaly detection. HQ-Loc, utilizing Grounding DINO for preliminary localization, position-enhanced text prompts, and Multi-scale Multi-shape Cross-modal Interaction (MMCI) module, facilitates more accurate localization of anomalies of different sizes and shapes. Experimental results on datasets like MVTec and VisA demonstrate that FiLo significantly improves the performance of ZSAD in both detection and localization, achieving state-of-the-art performance with an image-level AUC of 83.9% and a pixel-level AUC of 95.9% on the VisA dataset. Code is available at https://github.com/CASIA-IVA-Lab/FiLo.
Abstract（参考訳）: ゼロショット異常検出(ZSAD)法は、ターゲットアイテムカテゴリ内の既知の正常または異常なサンプルにアクセスすることなく、直接異常を検出する。既存のアプローチでは、マルチモーダル事前訓練されたモデルの堅牢な一般化機能、"正規"または"異常"の意味を表す手作業によるテキスト特徴と、異常を検出して異常パッチをローカライズするイメージ特徴との類似性を計算している。しかしながら、「異常」の一般的な記述は、しばしば異なる対象カテゴリの様々な種類の異常と正確に一致しない。さらに、単一パッチのコンピューティングの特徴的類似性は、さまざまなサイズとスケールの異常の特定の位置を特定するのに苦労している。これらの問題に対処するために、適応学習されたFG-Des(Fined Description)と、位置強調された高品質ローカライゼーション(HQ-Loc)の2つのコンポーネントからなる、FiLoと呼ばれる新しいZSAD手法を提案する。 FG-DesはLarge Language Models (LLMs)を用いて各カテゴリの詳細な異常記述を導入し、適応的に学習されたテキストテンプレートを用いて異常検出の精度と解釈性を高める。 HQ-Locは、事前のローカライズ、位置強調テキストプロンプト、マルチスケールマルチシェイプ・クロスモーダル・インタラクション(MMCI)モジュールにGrounding DINOを活用し、異なるサイズと形状の異常のより正確なローカライズを容易にする。 MVTecやVisAのようなデータセットの実験結果によると、FiLoは検出とローカライゼーションの両方においてZSADの性能を大幅に改善し、画像レベルのAUCは83.9%、ピクセルレベルのAUCは95.9%である。コードはhttps://github.com/CASIA-IVA-Lab/FiLoで入手できる。

関連論文リスト

Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文参考訳（メタデータ） (2025-04-15T10:42:25Z)
Towards Accurate Unified Anomaly Segmentation [25.415671183061317]
画像からの教師なし異常検出(UAD)は、正常なデータ分布をモデル化し、異常を識別し、ローカライズするための離散表現を作成する。効率的で統一されたワン・フォー・オール・スキームの最近の進歩にもかかわらず、さらなる監視のために異常を正確にセグメント化することは困難である。未解決セグメンテーションタスクに対処するため,Unified Anomaly (UniAS)を導入する。 UniASは、MVTec-ADおよびVisAデータセット上のpAP/DSCで65.12/59.33と40.06/32.50という最先端の異常セグメンテーション性能を達成する。
論文参考訳（メタデータ） (2025-01-21T17:02:51Z)
FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization [28.994585945398754]
異常検出法は通常、訓練のためにターゲットクラスからの広範な正常なサンプルを必要とする。既存のゼロショットと少数ショットのアプローチは、しばしば強力なマルチモーダルモデルを利用して異常を検出し、ローカライズする。本稿では,2つの鍵成分からなるFiLo++法を提案する。
論文参考訳（メタデータ） (2025-01-17T09:38:43Z)
Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文参考訳（メタデータ） (2024-10-14T08:41:31Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文参考訳（メタデータ） (2024-01-06T07:30:41Z)
Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文参考訳（メタデータ） (2023-11-13T02:54:17Z)
AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection [30.679012320439625]
AnomalyCLIPはオブジェクトに依存しないテキストを学習し、画像の一般的な正規性と異常をキャプチャする。非常に多様なクラスセマンティクスのデータセットにおける異常の検出とセグメンテーションにおいて、優れたゼロショット性能を実現する。
論文参考訳（メタデータ） (2023-10-29T10:03:49Z)
MSFlow: Multi-Scale Flow-based Framework for Unsupervised Anomaly Detection [124.52227588930543]
教師なし異常検出(UAD)は多くの研究の関心を集め、幅広い応用を推進している。不明瞭だが強力な統計モデルである正規化フローは、教師なしの方法で異常検出と局所化に適している。非対称な並列フローと融合フローからなるMSFlowと呼ばれる新しいマルチスケールフローベースフレームワークを提案する。我々のMSFlowは、検出AUORCスコアが99.7%、ローカライゼーションAUCROCスコアが98.8%、プロスコアが97.1%の新たな最先端技術を実現している。
論文参考訳（メタデータ） (2023-08-29T13:38:35Z)
Hard Nominal Example-aware Template Mutual Matching for Industrial Anomaly Detection [74.9262846410559]
textbfHard Nominal textbfExample-aware textbfTemplate textbfMutual textbfMatching (HETMM) textitHETMMは、厳密なプロトタイプベースの決定境界を構築することを目的としており、ハードノミナルな例と異常を正確に区別することができる。
論文参考訳（メタデータ） (2023-03-28T17:54:56Z)
MLF-SC: Incorporating multi-layer features to sparse coding for anomaly detection [2.2276675054266395]
画像の異常は、カーペットの上の小さな穴から大きな汚れまで、様々なスケールで発生する。広く使われている異常検出方法の1つであるスパースコーディング(sparse coding)は、画像のスパース表現に使用されるパッチサイズから外れた異常を扱う際に問題となる。本稿では,マルチスケール機能をスパース符号化に取り入れ,異常検出の性能を向上させることを提案する。
論文参考訳（メタデータ） (2021-04-09T10:20:34Z)
Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。 NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文参考訳（メタデータ） (2020-10-15T05:02:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。