論文の概要: FB-CLIP: Fine-Grained Zero-Shot Anomaly Detection with Foreground-Background Disentanglement
- arxiv url: http://arxiv.org/abs/2603.19608v1
- Date: Fri, 20 Mar 2026 03:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.968559
- Title: FB-CLIP: Fine-Grained Zero-Shot Anomaly Detection with Foreground-Background Disentanglement
- Title(参考訳): FB-CLIP:FB-CLIPによるゼロショット異常検出
- Authors: Ming Hu, Yongsheng Huo, Mingyu Dou, Jianfu Yin, Peng Zhao, Yao Wang, Cong Hu, Bingliang Hu, Quan Wang,
- Abstract要約: 本稿では,FB-CLIPを提案する。FB-CLIPは,マルチストラテジーなテキスト表現と前景と背景の分離によって,異常な局所化を促進するフレームワークである。
実験により、FB-CLIPは複雑な背景から効果的に異常を識別し、ゼロショット設定下で正確な微細な異常検出と局所化を実現する。
- 参考スコア(独自算出の注目度): 21.260231526776128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained anomaly detection is crucial in industrial and medical applications, but labeled anomalies are often scarce, making zero-shot detection challenging. While vision-language models like CLIP offer promising solutions, they struggle with foreground-background feature entanglement and coarse textual semantics. We propose FB-CLIP, a framework that enhances anomaly localization via multi-strategy textual representations and foreground-background separation. In the textual modality, it combines End-of-Text features, global-pooled representations, and attention-weighted token features for richer semantic cues. In the visual modality, multi-view soft separation along identity, semantic, and spatial dimensions, together with background suppression, reduces interference and improves discriminability. Semantic Consistency Regularization (SCR) aligns image features with normal and abnormal textual prototypes, suppressing uncertain matches and enlarging semantic gaps. Experiments show that FB-CLIP effectively distinguishes anomalies from complex backgrounds, achieving accurate fine-grained anomaly detection and localization under zero-shot settings.
- Abstract(参考訳): 微細な異常検出は工業や医療の応用において重要であるが、ラベル付き異常は少ないため、ゼロショット検出は困難である。
CLIPのような視覚言語モデルは有望なソリューションを提供するが、前景の機能の絡み合いと粗いテキストセマンティクスに苦慮している。
本稿では,FB-CLIPを提案する。FB-CLIPは,マルチストラテジーなテキスト表現と前景と背景の分離によって,異常な局所化を促進するフレームワークである。
テキストモダリティでは、End-of-Text機能、グローバルプール表現、よりリッチなセマンティックキューのためのアテンション重み付きトークン機能を組み合わせる。
視覚的モダリティでは、アイデンティティ、セマンティクス、空間次元に沿った多視点のソフトな分離が背景抑制とともに干渉を減少させ、識別性を向上させる。
Semantic Consistency Regularization (SCR)は、画像特徴と正常および異常なテキストプロトタイプを整列し、不確実な一致を抑制し、意味的ギャップを拡大する。
実験により、FB-CLIPは複雑な背景から効果的に異常を識別し、ゼロショット設定下で正確な微細な異常検出と局所化を実現する。
関連論文リスト
- Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection [58.927873049646024]
実画像と比較して,偽画像は対応するキャプションと適切に一致しないことを示す。
本稿では,視覚空間における画像テキストの不一致を識別的手がかりとして活用し,簡易かつ効果的なITEMを提案する。
論文 参考訳(メタデータ) (2025-11-01T06:51:14Z) - CalibCLIP: Contextual Calibration of Dominant Semantics for Text-Driven Image Retrieval [32.19047293714607]
CalibCLIPは、支配トークンの抑制効果を校正するために設計された訓練不要の方法である。
本稿では,視覚的特徴をターゲット領域と低情報領域に分離するContrastive Visual Enhancerを提案する。
テキスト空間では,一般概念と差別概念の区別を目的とした識別概念キャリブレータを導入する。
論文 参考訳(メタデータ) (2025-10-07T05:16:29Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - AF-CLIP: Zero-Shot Anomaly Detection via Anomaly-Focused CLIP Adaptation [8.252046294696585]
AF-CLIP(Anomaly-Focused CLIP)を提案する。
本稿では,視覚的特徴の異常関連パターンを強調する軽量アダプタを提案する。
また,余分なメモリバンクによる数ショットのシナリオにも拡張されている。
論文 参考訳(メタデータ) (2025-07-26T13:34:38Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Do LLMs Understand Visual Anomalies? Uncovering LLM's Capabilities in Zero-shot Anomaly Detection [18.414762007525137]
大規模視覚言語モデル(LVLM)は、自然言語で導かれる視覚表現の導出に長けている。
近年の研究では、ゼロショット視覚異常検出(VAD)の課題に取り組むためにLVLMを用いている。
統一モデルを用いてこれらの課題に対処するために設計された、トレーニング不要のアプローチであるALFAを提案する。
論文 参考訳(メタデータ) (2024-04-15T10:42:22Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。