論文の概要: DictAS: A Framework for Class-Generalizable Few-Shot Anomaly Segmentation via Dictionary Lookup
- arxiv url: http://arxiv.org/abs/2508.13560v1
- Date: Tue, 19 Aug 2025 06:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.821123
- Title: DictAS: A Framework for Class-Generalizable Few-Shot Anomaly Segmentation via Dictionary Lookup
- Title(参考訳): DictAS:辞書検索によるクラス一般化可能なFew-Shot異常セグメンテーションのためのフレームワーク
- Authors: Zhen Qu, Xian Tao, Xinyi Gong, ShiChen Qu, Xiaopei Zhang, Xingang Wang, Fei Shen, Zhengtao Zhang, Mukesh Prasad, Guiguang Ding,
- Abstract要約: 最近の視覚言語モデル(例えば、CLIP)は、少数ショット異常セグメンテーション(FSAS)において、クラスを目立たせる驚くべきクラス一般化能力を示している。
本研究では,対象データに再トレーニングを加えることなく,未知のオブジェクトカテゴリの視覚異常を検出できる新しいフレームワークであるDictASを提案する。
- 参考スコア(独自算出の注目度): 19.78332125963566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-language models (e.g., CLIP) have demonstrated remarkable class-generalizable ability to unseen classes in few-shot anomaly segmentation (FSAS), leveraging supervised prompt learning or fine-tuning on seen classes. However, their cross-category generalization largely depends on prior knowledge of real seen anomaly samples. In this paper, we propose a novel framework, namely DictAS, which enables a unified model to detect visual anomalies in unseen object categories without any retraining on the target data, only employing a few normal reference images as visual prompts. The insight behind DictAS is to transfer dictionary lookup capabilities to the FSAS task for unseen classes via self-supervised learning, instead of merely memorizing the normal and abnormal feature patterns from the training set. Specifically, DictAS mainly consists of three components: (1) **Dictionary Construction** - to simulate the index and content of a real dictionary using features from normal reference images. (2) **Dictionary Lookup** - to retrieve queried region features from the dictionary via a sparse lookup strategy. When a query feature cannot be retrieved, it is classified as an anomaly. (3) **Query Discrimination Regularization**- to enhance anomaly discrimination by making abnormal features harder to retrieve from the dictionary. To achieve this, Contrastive Query Constraint and Text Alignment Constraint are further proposed. Extensive experiments on seven public industrial and medical datasets demonstrate that DictAS consistently outperforms state-of-the-art FSAS methods.
- Abstract(参考訳): 近年の視覚言語モデル(例えばCLIP)は、教師付き即時学習や授業の微調整を生かした、数ショットの異常セグメンテーション(FSAS)でクラスを発見できない、驚くべきクラス一般化能力を示している。
しかし、それらのクロスカテゴリの一般化は、実際に見られる異常なサンプルの事前の知識に大きく依存する。
本稿では,対象データに再トレーニングすることなく,視覚的プロンプトとしてごく普通の参照画像のみを用いることで,未確認対象カテゴリの視覚異常を検出できる新しいフレームワークであるDictASを提案する。
DictASの背後にある洞察は、通常の特徴パターンと異常な特徴パターンをトレーニングセットから記憶するのではなく、自己教師付き学習を通じて未確認のクラスのためのFSASタスクに辞書のルックアップ機能を転送することである。
具体的には、DictASは主に3つのコンポーネントで構成されている。(1)*Dictionary Construction** - 通常の参照画像の特徴を使って実辞書のインデックスと内容をシミュレートする。
(2)**Dictionary Lookup** - スパースルックアップ戦略を通じて、辞書からクエリされた領域の特徴を検索する。
クエリ機能が検索できない場合、それは異常に分類される。
(3)**クエリ識別正規化**- 異常特徴を辞書から取得しにくくすることで異常識別を強化する。
これを実現するために、Contrastive Query ConstraintとText Alignment Constraintを提案する。
7つの公開産業および医療データセットに関する大規模な実験は、DictASが最先端のFSAS手法を一貫して上回っていることを示している。
関連論文リスト
- Learning Interpretable Queries for Explainable Image Classification with Information Pursuit [16.192225229327242]
Information Pursuit (IP) は、データに関する解釈可能なクエリのシーケンスを欲求的に選択する説明可能な予測アルゴリズムである。
本稿では,データセットから直接解釈可能なクエリの辞書を学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T21:43:07Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Automatic Creation of Named Entity Recognition Datasets by Querying
Phrase Representations [20.00016240535205]
ほとんどの弱教師付きエンティティ認識モデルは、専門家によって提供されるドメイン固有の辞書に依存している。
高被覆擬似辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。
5つのNERベンチマークデータセットの平均F1スコア4.7で、HighGENが前のベストモデルより優れていたことを実証する。
論文 参考訳(メタデータ) (2022-10-14T07:36:44Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。