論文の概要: One Language-Free Foundation Model Is Enough for Universal Vision Anomaly Detection
- arxiv url: http://arxiv.org/abs/2601.05552v1
- Date: Fri, 09 Jan 2026 06:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.860274
- Title: One Language-Free Foundation Model Is Enough for Universal Vision Anomaly Detection
- Title(参考訳): 1つの言語フリーファンデーションモデルは、Universal Vision Anomaly Detectionに十分
- Authors: Bin-Bin Gao, Chengjie Wang,
- Abstract要約: Universal Visual Anomaly Detection (AD) は、オープンかつダイナミックなシナリオに向けて、異常画像とセグメント異常領域を識別することを目的としている。
現在の手法は、複雑なプロンプトエンジニアリング、精巧な適応モジュール、そして挑戦的な訓練戦略に苦しむことが多い。
本稿では,Universal Vision Anomaly Detection(UniADet)のための,恥ずかしいほどシンプルで汎用的で効果的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 65.11602552904456
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Universal visual anomaly detection (AD) aims to identify anomaly images and segment anomaly regions towards open and dynamic scenarios, following zero- and few-shot paradigms without any dataset-specific fine-tuning. We have witnessed significant progress in widely use of visual-language foundational models in recent approaches. However, current methods often struggle with complex prompt engineering, elaborate adaptation modules, and challenging training strategies, ultimately limiting their flexibility and generality. To address these issues, this paper rethinks the fundamental mechanism behind visual-language models for AD and presents an embarrassingly simple, general, and effective framework for Universal vision Anomaly Detection (UniADet). Specifically, we first find language encoder is used to derive decision weights for anomaly classification and segmentation, and then demonstrate that it is unnecessary for universal AD. Second, we propose an embarrassingly simple method to completely decouple classification and segmentation, and decouple cross-level features, i.e., learning independent weights for different tasks and hierarchical features. UniADet is highly simple (learning only decoupled weights), parameter-efficient (only 0.002M learnable parameters), general (adapting a variety of foundation models), and effective (surpassing state-of-the-art zero-/few-shot by a large margin and even full-shot AD methods for the first time) on 14 real-world AD benchmarks covering both industrial and medical domains. We will make the code and model of UniADet available at https://github.com/gaobb/UniADet.
- Abstract(参考訳): Universal Visual Anomaly Detection (AD) は、データセット固有の微調整なしでゼロショットと少数ショットのパラダイムに従って、オープンシナリオとダイナミックシナリオに向けて、異常画像とセグメント異常領域を識別することを目的としている。
近年のアプローチでは,視覚言語基盤モデルの普及に大きな進展が見られた。
しかし、現在の手法は複雑なプロンプトエンジニアリング、精巧な適応モジュール、そして困難な訓練戦略に苦しむことが多く、最終的には柔軟性と汎用性を制限している。
本稿では,ADの視覚言語モデルの背後にある基本的なメカニズムを再考し,UniADet(UniADet)のための恥ずかしいほどシンプルで汎用的で効果的なフレームワークを提案する。
具体的には、まず言語エンコーダを用いて、異常な分類とセグメンテーションの重み付けを導出し、さらに一般のADでは不要であることを示す。
第二に、分類とセグメンテーションを完全に分離し、異なるタスクや階層的な特徴に対して独立した重みを学習するクロスレベル特徴を分離する、恥ずかしいほど単純な方法を提案する。
UniADetは非常に単純(分離された重みのみを学習する)で、パラメータ効率(学習可能なパラメータは0.002Mのみ)、一般(様々な基礎モデルに適応する)で、14の現実のADベンチマークで、工業と医療の両方をカバーする。
UniADetのコードとモデルはhttps://github.com/gaobb/UniADet.comで公開します。
関連論文リスト
- ICAD-LLM: One-for-All Anomaly Detection via In-Context Learning with Large Language Models [14.804039283733475]
異常検出は多くの領域において重要な課題である。
In-Context Anomaly Detection (ICAD) という新しいパラダイムを導入する。
本パラダイムでは,大規模言語モデルのコンテキスト内学習能力を利用した統一ADフレームワークであるICAD-LLMを提案する。
論文 参考訳(メタデータ) (2025-12-01T13:41:30Z) - Generalist Multi-Class Anomaly Detection via Distillation to Two Heterogeneous Student Networks [11.543429175824905]
異常検出は、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
最近の手法では、一般的な異常検出に対処しようと試みているが、その性能はデータセット固有の設定や単一クラスタスクに敏感である。
本稿では,このギャップを埋めるために,知識蒸留(KD)に基づく新しい二重モデルアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2025-09-29T08:31:31Z) - ResAD++: Towards Class Agnostic Anomaly Detection via Residual Feature Learning [52.11294707895649]
本稿では,クラス非依存型異常検出(AD)の問題点について検討する。
目的は、ターゲットデータの再トレーニングや微調整をせずに、異なるドメインから様々な新しいクラスの異常を一般化して検出できる、クラスに依存しないADモデルをトレーニングすることである。
8つの実世界のADデータセットに関する総合的な実験は、ResAD++が新しいクラスで直接使用されると、素晴らしいAD結果が得られることを示した。
論文 参考訳(メタデータ) (2025-09-28T08:41:05Z) - NeuCoReClass AD: Redefining Self-Supervised Time Series Anomaly Detection [0.8349690795786082]
自己教師型マルチタスク時系列異常検出フレームワークであるNeuCoReClass ADを紹介する。
本手法では,ドメイン固有の知識を必要とせず,情報的,多様性的,一貫性のある拡張ビューを生成するために,ニューラルトランスフォーメーション学習を用いる。
論文 参考訳(メタデータ) (2025-07-29T15:04:05Z) - MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning [4.887838886202545]
本稿では,異常セグメンテーションを変化セグメンテーションに統一する新しいパラダイムを提案する。
We propose a one-prompt Meta-learning framework for Universal Anomaly (MetaUAS)。
本手法は,正常な画像プロンプトを1つだけ有する異常を効果的かつ効率的に分割する。
論文 参考訳(メタデータ) (2025-05-14T10:25:26Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。