論文の概要: Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2507.11003v1
- Date: Tue, 15 Jul 2025 05:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.995397
- Title: Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection
- Title(参考訳): ゼロショット異常検出のための相互フィルタを用いたブリッジ特徴マッチングとクロスモーダルアライメント
- Authors: Yuhu Bai, Jiangning Zhang, Yunkang Cao, Guangyuan Lu, Qingdong He, Xiangtai Li, Guanzhong Tian,
- Abstract要約: 本研究では,ZSAD 用 textbfFiSeCLIP とトレーニング不要 textbfCLIP を導入し,特徴マッチングとクロスモーダルアライメントを組み合わせた。
本手法は,異常検出ベンチマークにおいて,異常分類とセグメンテーションの両方において優れた性能を示す。
- 参考スコア(独自算出の注目度): 25.349261412750586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of vision-language models (e.g., CLIP) in zero- and few-shot settings, CLIP has been widely applied to zero-shot anomaly detection (ZSAD) in recent research, where the rare classes are essential and expected in many applications. This study introduces \textbf{FiSeCLIP} for ZSAD with training-free \textbf{CLIP}, combining the feature matching with the cross-modal alignment. Testing with the entire dataset is impractical, while batch-based testing better aligns with real industrial needs, and images within a batch can serve as mutual reference points. Accordingly, FiSeCLIP utilizes other images in the same batch as reference information for the current image. However, the lack of labels for these references can introduce ambiguity, we apply text information to \textbf{fi}lter out noisy features. In addition, we further explore CLIP's inherent potential to restore its local \textbf{se}mantic correlation, adapting it for fine-grained anomaly detection tasks to enable a more accurate filtering process. Our approach exhibits superior performance for both anomaly classification and segmentation on anomaly detection benchmarks, building a stronger baseline for the direction, e.g., on MVTec-AD, FiSeCLIP outperforms the SOTA AdaCLIP by +4.6\%$\uparrow$/+5.7\%$\uparrow$ in segmentation metrics AU-ROC/$F_1$-max.
- Abstract(参考訳): ゼロショットおよび少数ショット設定における視覚言語モデル(例えばCLIP)の出現により、CLIPは最近の研究でゼロショット異常検出(ZSAD)に広く応用されている。
本研究では,ZSAD 用 \textbf{FiSeCLIP} とトレーニング不要 \textbf{CLIP} を導入し,特徴マッチングとクロスモーダルアライメントを組み合わせた。
データセット全体のテストは現実的ではなく、バッチベースのテストは実際の産業ニーズと整合し、バッチ内のイメージは相互参照ポイントとして機能する。
これにより、FiSeCLIPは現在の画像の参照情報と同じバッチ内の他の画像を利用する。
しかし、これらの参照にラベルがないことは曖昧さをもたらす可能性がある。
さらに、より正確なフィルタリング処理を可能にするために、局所的な \textbf{se}mantic correlation を復元し、きめ細かい異常検出タスクに適応する CLIP 固有のポテンシャルについても検討する。
提案手法は, 異常分類と異常検出ベンチマークのセグメンテーションの両方において優れた性能を示し, MVTec-AD上の方向ベースライン, 例えば, MVTec-AD上では FiSeCLIP が SOTA AdaCLIP を +4.6\%$\uparrow$/+5.7\%$\uparrow$ in segmentation metrics AU-ROC/$F_1$-max で上回っている。
関連論文リスト
- MadCLIP: Few-shot Medical Anomaly Detection with CLIP [14.023527193608142]
医療データに事前訓練されたCLIPモデルを活用する,革新的な数発の異常検出手法を提案する。
学習可能なアダプタを用いて,正常な特徴と異常な特徴を別々に捉えるために,デュアルブランチ設計を提案する。
セマンティックアライメントを改善するために、学習可能なテキストプロンプトを使用して視覚的特徴をリンクする。
論文 参考訳(メタデータ) (2025-06-30T12:56:17Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。
本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - CLIP-FSAC++: Few-Shot Anomaly Classification with Anomaly Descriptor Based on CLIP [22.850815902535988]
筆者らは,CLIP-FSAC++と呼ばれる一段階の訓練を施した効果的な数ショット異常分類フレームワークを提案する。
異常記述子では、画像からテキストへのクロスアテンションモジュールを使用して、画像固有のテキスト埋め込みを得る。
その結果,VisAおよびMVTEC-ADを1, 2, 4, 8ショット設定で非正規ショット異常分類し,本手法の総合的な評価実験を行った。
論文 参考訳(メタデータ) (2024-12-05T02:44:45Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection [14.916862007773341]
本研究では,事前学習型視覚言語モデル(VLM)であるCLIPを利用して,ZSADタスクのためのAdaCLIPを提案する。
AdaCLIPは学習可能なプロンプトをCLIPに組み込み、補助的な注釈付き異常検出データのトレーニングを通じて最適化する。
AdaCLIPは他のZSAD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:52:37Z) - African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization [31.854923603517264]
本稿では,新しいゼロショット異常検出法であるFiLoを提案する。
FiLoは、適応学習されたFG-Des(FG-Des)と位置強調された高品質なローカライゼーション(HQ-Loc)の2つのコンポーネントから構成される。
MVTecやVisAのようなデータセットの実験結果から、FiLoは検出とローカライゼーションの両方においてZSADの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-04-21T14:22:04Z) - Weak Supervision with Arbitrary Single Frame for Micro- and Macro-expression Spotting [22.04975008531069]
本稿では,各表現を1つのランダムフレーム(すなわち1点)でアノテートする必要がある点レベルの弱教師付き表現スポッティングフレームワークを提案する。
我々は,MPLGがクラス固有の確率,注意スコア,融合特徴,点レベルのラベルを融合することにより,より信頼性の高い擬似ラベルを生成することを示す。
CAS(ME)2、CAS(ME)3、SAMM-LVデータセットの実験は、PWESが最近の完全教師付き手法に匹敵する有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2024-03-21T09:01:21Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - Rapid Adaptation in Online Continual Learning: Are We Evaluating It
Right? [135.71855998537347]
オンライン連続学習(OCL)アルゴリズムの適応性を評価するための一般的な手法を,オンライン精度の指標を用いて再検討する。
空白のブラインド分類器でさえ、非現実的に高いオンライン精度を達成できるため、この指標は信頼できない。
既存のOCLアルゴリズムは、オンラインの精度も高いが、有用な情報の保持は不十分である。
論文 参考訳(メタデータ) (2023-05-16T08:29:33Z) - CAFS: Class Adaptive Framework for Semi-Supervised Semantic Segmentation [5.484296906525601]
半教師付きセマンティックセグメンテーションは、いくつかのラベル付きサンプルと多数のラベルなし画像を使用して、ピクセルを特定のクラスに分類するモデルを学ぶ。
半教師付きセマンティックセグメンテーション(CAFS)のためのクラス適応型セミスーパービジョンフレームワークを提案する。
CAFSはラベル付きデータセットに検証セットを構築し、各クラスの校正性能を活用する。
論文 参考訳(メタデータ) (2023-03-21T05:56:53Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。