論文の概要: FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization
- arxiv url: http://arxiv.org/abs/2501.10067v1
- Date: Fri, 17 Jan 2025 09:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:38.399381
- Title: FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization
- Title(参考訳): FiLo++:Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and deformable Localization
- Authors: Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang,
- Abstract要約: 異常検出法は通常、訓練のためにターゲットクラスからの広範な正常なサンプルを必要とする。
既存のゼロショットと少数ショットのアプローチは、しばしば強力なマルチモーダルモデルを利用して異常を検出し、ローカライズする。
本稿では,2つの鍵成分からなるFiLo++法を提案する。
- 参考スコア(独自算出の注目度): 28.994585945398754
- License:
- Abstract: Anomaly detection methods typically require extensive normal samples from the target class for training, limiting their applicability in scenarios that require rapid adaptation, such as cold start. Zero-shot and few-shot anomaly detection do not require labeled samples from the target class in advance, making them a promising research direction. Existing zero-shot and few-shot approaches often leverage powerful multimodal models to detect and localize anomalies by comparing image-text similarity. However, their handcrafted generic descriptions fail to capture the diverse range of anomalies that may emerge in different objects, and simple patch-level image-text matching often struggles to localize anomalous regions of varying shapes and sizes. To address these issues, this paper proposes the FiLo++ method, which consists of two key components. The first component, Fused Fine-Grained Descriptions (FusDes), utilizes large language models to generate anomaly descriptions for each object category, combines both fixed and learnable prompt templates and applies a runtime prompt filtering method, producing more accurate and task-specific textual descriptions. The second component, Deformable Localization (DefLoc), integrates the vision foundation model Grounding DINO with position-enhanced text descriptions and a Multi-scale Deformable Cross-modal Interaction (MDCI) module, enabling accurate localization of anomalies with various shapes and sizes. In addition, we design a position-enhanced patch matching approach to improve few-shot anomaly detection performance. Experiments on multiple datasets demonstrate that FiLo++ achieves significant performance improvements compared with existing methods. Code will be available at https://github.com/CASIA-IVA-Lab/FiLo.
- Abstract(参考訳): 異常検出法は通常、トレーニングのためにターゲットクラスからの広範な正常なサンプルを必要とし、コールドスタートのような迅速な適応を必要とするシナリオで適用性を制限する。
ゼロショットと少数ショットの異常検出は、事前に対象クラスのラベル付きサンプルを必要としないため、有望な研究方向となっている。
既存のゼロショットと少数ショットのアプローチは、画像とテキストの類似性を比較することで、しばしば強力なマルチモーダルモデルを利用して異常を検出し、ローカライズする。
しかし、それらの手作りの一般的な記述は、異なるオブジェクトに現れる可能性のある多様な異常領域を捉えることができず、単純なパッチレベルの画像テキストマッチングは、様々な形状と大きさの異常領域をローカライズするのにしばしば苦労する。
これらの問題に対処するため,本稿では2つの重要なコンポーネントからなるFiLo++法を提案する。
最初のコンポーネントであるFused Fine-Grained Descriptions (FusDes)は、大きな言語モデルを使用して、各オブジェクトカテゴリの異常記述を生成し、固定および学習可能なプロンプトテンプレートを組み合わせ、実行時プロンプトフィルタリングメソッドを適用し、より正確でタスク固有のテキスト記述を生成する。
2つ目のコンポーネントであるDeformable Localization (DefLoc)は、視覚基盤モデルであるGrounding DINOと、位置強調されたテキスト記述と、MDCI(Multi-scale Deformable Cross-modal Interaction)モジュールを統合し、様々な形状と大きさの異常の正確なローカライズを可能にする。
さらに,数発の異常検出性能を改善するために,位置強調パッチマッチング手法を設計する。
複数のデータセットの実験では、FiLo++は既存のメソッドと比較して大幅にパフォーマンスが向上している。
コードはhttps://github.com/CASIA-IVA-Lab/FiLo.comから入手できる。
関連論文リスト
- FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model [0.9226774742769024]
製造業界における品質検査には,少ないショット・ゼロショット異常検出が重要である。
視覚言語CLIPモデルを利用したFew-shot/zero-shot Anomaly Engine Detection (FADE)を提案する。
FADEは、ゼロショットで89.6%(91.5%)、ノーマルショットで95.4%(97.5%)の異常セグメンテーションにおいて、他の最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-31T23:05:56Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization [31.854923603517264]
本稿では,新しいゼロショット異常検出法であるFiLoを提案する。
FiLoは、適応学習されたFG-Des(FG-Des)と位置強調された高品質なローカライゼーション(HQ-Loc)の2つのコンポーネントから構成される。
MVTecやVisAのようなデータセットの実験結果から、FiLoは検出とローカライゼーションの両方においてZSADの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-04-21T14:22:04Z) - MLAD: A Unified Model for Multi-system Log Anomaly Detection [35.68387377240593]
複数のシステムにまたがる意味的関係推論を組み込んだ新しい異常検出モデルMLADを提案する。
具体的には、Sentence-bertを用いてログシーケンス間の類似性を捉え、それらを高次元の学習可能な意味ベクトルに変換する。
我々は,各キーワードのシーケンスにおける意義を識別し,マルチシステムデータセットの全体分布をモデル化するために,アテンション層の公式を改訂する。
論文 参考訳(メタデータ) (2024-01-15T12:51:13Z) - Hard-normal Example-aware Template Mutual Matching for Industrial Anomaly Detection [78.734927709231]
異常検出器は、クエリー画像の未知の欠陥を検出し、ローカライズするために工業製造で広く使われている。
これらの検出器は異常のないサンプルで訓練され、ほとんどの通常のサンプルと区別された異常を成功させた。
しかし、ハードノーマルな例は、ほとんどの通常のサンプルから遠く離れており、しばしば既存の方法によって異常と誤認される。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Reference-based Defect Detection Network [57.89399576743665]
最初の問題はテクスチャシフトであり、これはトレーニングされた欠陥検出モデルが目に見えないテクスチャの影響を受けやすいことを意味する。
第2の問題は部分的な視覚的混乱であり、部分的な欠陥ボックスが完全なボックスと視覚的に類似していることを示している。
本稿では,これら2つの問題に対処する参照型欠陥検出ネットワーク(RDDN)を提案する。
論文 参考訳(メタデータ) (2021-08-10T05:44:23Z) - A Background-Agnostic Framework with Adversarial Training for Abnormal
Event Detection in Video [120.18562044084678]
近年,ビデオにおける異常事象検出は複雑なコンピュータビジョンの問題として注目されている。
通常のイベントのみを含むトレーニングビデオから学習するバックグラウンドに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T18:39:24Z) - A Systematic Evaluation of Object Detection Networks for Scientific
Plots [17.882932963813985]
PlotQAデータセット上で、様々なSOTAオブジェクト検出ネットワークの精度をトレーニングし比較する。
0.5の標準IOU設定では、ほとんどのネットワークはプロット内の比較的単純な物体を検出する場合、mAPスコアが80%以上である。
しかし、パフォーマンスは0.9のより厳格なIOUで評価されると大幅に低下し、最高のモデルでmAPは35.70%となった。
論文 参考訳(メタデータ) (2020-07-05T05:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。