論文の概要: Training Free Zero-Shot Visual Anomaly Localization via Diffusion Inversion
- arxiv url: http://arxiv.org/abs/2601.08022v1
- Date: Mon, 12 Jan 2026 21:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.960676
- Title: Training Free Zero-Shot Visual Anomaly Localization via Diffusion Inversion
- Title(参考訳): 拡散インバージョンによる自由ゼロショット視覚異常位置の訓練
- Authors: Samet Hicsonmez, Abd El Rahman Shabayek, Djamila Aouada,
- Abstract要約: Zero-Shot Image Anomaly Detection (ZSAD)は、ターゲットデータの通常のトレーニングサンプルにアクセスすることなく、異常を検出し、ローカライズすることを目的としている。
最近のアプローチでは、局所化のためのきめ細かいプロンプトを生成するために、言語のような追加のモダリティを活用している。
我々は、きめ細かいプロンプトの必要性を回避するために、トレーニングフリーなビジョンオンリーのZSADフレームワークを導入する。
- 参考スコア(独自算出の注目度): 15.486565360380203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-Shot image Anomaly Detection (ZSAD) aims to detect and localise anomalies without access to any normal training samples of the target data. While recent ZSAD approaches leverage additional modalities such as language to generate fine-grained prompts for localisation, vision-only methods remain limited to image-level classification, lacking spatial precision. In this work, we introduce a simple yet effective training-free vision-only ZSAD framework that circumvents the need for fine-grained prompts by leveraging the inversion of a pretrained Denoising Diffusion Implicit Model (DDIM). Specifically, given an input image and a generic text description (e.g., "an image of an [object class]"), we invert the image to obtain latent representations and initiate the denoising process from a fixed intermediate timestep to reconstruct the image. Since the underlying diffusion model is trained solely on normal data, this process yields a normal-looking reconstruction. The discrepancy between the input image and the reconstructed one highlights potential anomalies. Our method achieves state-of-the-art performance on VISA dataset, demonstrating strong localisation capabilities without auxiliary modalities and facilitating a shift away from prompt dependence for zero-shot anomaly detection research. Code is available at https://github.com/giddyyupp/DIVAD.
- Abstract(参考訳): Zero-Shot Image Anomaly Detection (ZSAD)は、ターゲットデータの通常のトレーニングサンプルにアクセスすることなく、異常を検出し、ローカライズすることを目的としている。
近年のZSADアプローチでは、局所化のためのきめ細かいプロンプトを生成するために言語などの追加のモダリティを活用しているが、視覚のみの手法は画像レベルの分類に限られており、空間的精度が欠如している。
そこで本研究では,事前学習したDenoising Diffusion Implicit Model (DDIM) の逆転を利用して,よりきめ細かなプロンプトの必要性を回避する,シンプルで効果的なトレーニングフリーな視覚のみのZSADフレームワークを提案する。
具体的には、入力画像とジェネリックテキスト記述(例えば「オブジェクトクラスの画像」)が与えられた場合、画像を反転させて潜時表現を取得し、固定された中間段階から復調処理を開始し、画像を再構成する。
基礎となる拡散モデルは通常のデータのみに基づいて訓練されているため、このプロセスは正常に見える再構築をもたらす。
入力画像と再構成画像との相違は潜在的な異常を浮き彫りにする。
提案手法は、VISAデータセットの最先端性能を実現し、補助的なモダリティを伴わずに強力な局所化能力を示し、ゼロショット異常検出研究の素早い依存から遠ざかることを容易にする。
コードはhttps://github.com/giddyyupp/DIVAD.comで入手できる。
関連論文リスト
- Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Human-Free Automated Prompting for Vision-Language Anomaly Detection: Prompt Optimization with Meta-guiding Prompt Scheme [19.732769780675977]
事前学習された視覚言語モデル(VLM)は、数ショットの学習を通じて、様々な下流タスクに高い適応性を持つ。
従来の手法は、特定の異常なタイプの事前の知識を必要とする人為的なプロンプトに依存している。
我々のゴールは、データ駆動方式でプロンプトを最適に学習する、人間の自由なプロンプトベースの異常検出フレームワークを開発することである。
論文 参考訳(メタデータ) (2024-06-26T09:29:05Z) - MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond [57.14128305383768]
拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-01-06T14:12:16Z) - PNI : Industrial Anomaly Detection using Position and Neighborhood
Information [6.316693022958221]
本研究では,条件付き近傍特徴量を用いて正規分布を推定する新しいアルゴリズム textbfPNI を提案する。
我々はMVTec ADベンチマークデータセットの実験を行い、異常検出と局所化におけるtextbf99.56%と textbf98.98%のAUROCスコアを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-11-22T23:45:27Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。