論文の概要: SPG: Sparse-Projected Guides with Sparse Autoencoders for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2604.02871v1
- Date: Fri, 03 Apr 2026 08:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.40532
- Title: SPG: Sparse-Projected Guides with Sparse Autoencoders for Zero-Shot Anomaly Detection
- Title(参考訳): SPG:ゼロショット異常検出のためのスパースオートエンコーダ付きスパースプロジェクションガイド
- Authors: Tomoyasu Nanaumi, Yukino Tsuzuki, Junichi Okubo, Junichiro Fujii, Takayoshi Yamashita,
- Abstract要約: 凍結基礎モデル特徴を用いたゼロショット異常検出とセグメンテーションについて検討した。
学習可能なパラメータはすべて、ラベル付き補助データセットでのみトレーニングされる。
Sparse-Projected Guides (SPG)は、スパースオートエンコーダ(SAE)潜在空間におけるスパースガイド係数を学習する。
- 参考スコア(独自算出の注目度): 8.546110867731993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study zero-shot anomaly detection and segmentation using frozen foundation model features, where all learnable parameters are trained only on a labeled auxiliary dataset and deployed to unseen target categories without any target-domain adaptation. Existing prompt-based approaches use handcrafted or learned prompt embeddings as reference vectors for normal/anomalous states. We propose Sparse-Projected Guides (SPG), a prompt-free framework that learns sparse guide coefficients in the Sparse Autoencoder (SAE) latent space, which generate normal/anomaly guide vectors via the SAE dictionary. SPG employs a two stage learning strategy on the labeled auxiliary dataset: (i) train an SAE on patch-token features, and (ii) optimize only guide coefficients using auxiliary pixel-level masks while freezing the backbone and SAE. On MVTec AD and VisA under cross-dataset zero-shot settings, SPG achieves competitive image-level detection and strong pixel-level segmentation; with DINOv3, SPG attains the highest pixellevel AUROC among the compared methods. We also report SPG instantiated with OpenCLIP (ViT-L/14@336px) to align the backbone with CLIP-based baselines. Moreover, the learned guide coefficients trace decisions back to a small set of dictionary atoms, revealing category-general and category-specific factors.
- Abstract(参考訳): 凍結基礎モデル特徴を用いたゼロショット異常検出とセグメンテーションについて検討し, 学習可能なパラメータはすべてラベル付き補助データセットでのみ訓練し, ターゲットドメイン適応なしに未確認対象カテゴリに展開する。
既存のプロンプトベースのアプローチでは、通常の/非正則状態の参照ベクトルとして手作りまたは学習プロンプト埋め込みを使用している。
Sparse-Projected Guides (SPG) は,Sparse Autoencoder (SAE) 潜在空間におけるスパースガイド係数を学習し,SAE辞書を介して正規/異常ガイドベクトルを生成する,プロンプトフリーなフレームワークである。
SPGはラベル付き補助データセットに2段階の学習戦略を採用している。
(i)パッチトーケン機能でSAEを訓練し、
(II)バックボーンとSAEを凍結しながら補助画素レベルのマスクを用いてガイド係数のみを最適化する。
MVTec AD と VisA では、SPG は競合画像レベルの検出と強い画素レベルのセグメンテーションを実現しており、DINOv3 では、SPG は比較手法の中で最高画素レベルの AUROC を達成している。
また,SPGをOpenCLIP(ViT-L/14@336px)でインスタンス化し,背骨をCLIPベースのベースラインと整合させる。
さらに、学習したガイド係数は、小さな辞書原子の集合に遡って決定を辿り、カテゴリ一般およびカテゴリ固有因子を明らかにする。
関連論文リスト
- Split Matching for Inductive Zero-shot Semantic Segmentation [56.47556212515178]
Zero-shot Semantic (ZSS)は、トレーニング中にアノテートされていないカテゴリをセグメントすることを目的としている。
ハンガリーのマッチングを2つのコンポーネントに分離する新しい割当て戦略であるSplit Matching (SM)を提案する。
SMは、インダクティブZSS設定の下で最初に分離されたハンガリー語マッチングを導入し、2つの標準ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-08T07:56:30Z) - SPECIAL: Zero-shot Hyperspectral Image Classification With CLIP [10.658533866562689]
CLIP(SPECIAL)に基づく新しいゼロショットハイパースペクトル画像分類フレームワークを提案する。
SPECIALフレームワークは,(1)CLIPに基づく擬似ラベル生成と(2)ノイズラベル学習の2段階からなる。
3つのベンチマークデータセットによる実験結果から,SPECIALはゼロショットHSI分類において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-27T17:13:03Z) - SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation [66.92696817276288]
SemiRESは、RESを実行するためにラベル付きデータとラベルなしデータの組み合わせを効果的に活用する半教師付きフレームワークである。
SemiRESはSegment Anything Model (SAM) を組み込んでいる。
利用可能な候補と正確なマスクが一致しない場合、Pixel-Wise Adjustment(PWA)戦略を開発する。
論文 参考訳(メタデータ) (2024-06-03T15:42:30Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Self-Supervised One-Shot Learning for Automatic Segmentation of StyleGAN
Images [0.0]
本稿では,StyleGANによって生成された合成画像の自動ワンショットセグメンテーションのためのフレームワークを提案する。
本フレームワークは,自己教師付きコントラストクラスタリングアルゴリズムを用いて合成画像のセグメンテーションを学習する。
また,脅威検出のための合成荷物X線スキャンのフレームワークであるBagGANの実装において,提案したワンショット学習機を用いた結果を示す。
論文 参考訳(メタデータ) (2023-03-10T01:04:27Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。