論文の概要: SOWA: Adapting Hierarchical Frozen Window Self-Attention to Visual-Language Models for Better Anomaly Detection
- arxiv url: http://arxiv.org/abs/2407.03634v4
- Date: Tue, 19 Nov 2024 02:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:48.742029
- Title: SOWA: Adapting Hierarchical Frozen Window Self-Attention to Visual-Language Models for Better Anomaly Detection
- Title(参考訳): SOWA:より優れた異常検出のための視覚言語モデルへの階層型凍結窓自己注意の適用
- Authors: Zongxiang Hu, Zhaosheng Zhang,
- Abstract要約: CLIPモデルに基づく新しいウィンドウ自己認識機構を導入し、学習可能なプロンプトを付加してマルチレベル機能を処理する。
提案手法は5つのベンチマークデータセットで厳格に評価され,20項目中18項目をリードすることで,優れた性能を実現している。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License:
- Abstract: Visual anomaly detection is essential in industrial manufacturing, yet traditional methods often rely heavily on extensive normal datasets and task-specific models, limiting their scalability. Recent advancements in large-scale vision-language models have significantly enhanced zero- and few-shot anomaly detection. However, these approaches may not fully leverage hierarchical features, potentially overlooking nuanced details crucial for accurate detection. To address this, we introduce a novel window self-attention mechanism based on the CLIP model, augmented with learnable prompts to process multi-level features within a Soldier-Officer Window Self-Attention (SOWA) framework. Our method has been rigorously evaluated on five benchmark datasets, achieving superior performance by leading in 18 out of 20 metrics, setting a new standard against existing state-of-the-art techniques.
- Abstract(参考訳): 視覚異常検出は工業生産において不可欠であるが、従来の手法は広範囲の通常のデータセットやタスク固有のモデルに大きく依存し、スケーラビリティを制限している。
大規模視覚言語モデルの最近の進歩は、ゼロショットと少数ショットの異常検出を大幅に強化した。
しかし、これらのアプローチは階層的特徴を完全に活用していない可能性があり、正確な検出に不可欠なニュアンスの詳細を見落としている可能性がある。
そこで本研究では,Soldier-Officer Window Self-Attention (SOWA) フレームワーク内で,学習可能なプロンプトを付加してマルチレベル機能を処理する,CLIPモデルに基づく新しいウィンドウ自己認識機構を提案する。
提案手法は5つのベンチマークデータセットで厳格に評価され,20項目中18項目に到達し,既存の最先端技術に対して新たな基準を設定した。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies [22.100031612580356]
我々は,OODデータを必要とせず,内分布(ID)測定によるモデル外分布(OOD)性能の予測に挑戦する。
本稿では,ラベルと予測との階層的距離を予め定義されたクラス階層内で測定するLCA(Lowest Common Ancestor)フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-07-22T21:54:19Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization [11.140366256534474]
既存の視覚言語モデルは、様々な視覚領域やタスクに対して強力な一般化を示す。
本稿では,OOD ゲネラリゼーションを改良するための新しいアプローチである OGEN を提案する。
具体的には、未知のクラスのクラス名のみを使用して、OOD機能を合成するために、クラス条件フィーチャジェネレータが導入された。
論文 参考訳(メタデータ) (2024-01-29T06:57:48Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Localized Latent Updates for Fine-Tuning Vision-Language Models [15.285292154680246]
この作業では,データポイントに近いモデル予測のみを更新する,軽量なアダプタを提案する。
我々は、この比較的単純なアプローチの有効性とスピードを、数ショットの学習の文脈で示し、トレーニング中に見られるクラスと見えないクラスの両方の結果が、芸術の状況に匹敵するか、改善されるかのどちらかであることを示した。
論文 参考訳(メタデータ) (2022-12-13T13:15:20Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Evaluating CLIP: Towards Characterization of Broader Capabilities and
Downstream Implications [8.15254368157658]
私たちはCLIPを分析し、そのようなモデルがもたらす課題をいくつか強調します。
CLIPは、従来のコンピュータビジョンシステムに見られるバイアスを継承できる。
これらの結果は、成長する仕事の体に「ベター」モデルの概念を変えることを要求する証拠となる。
論文 参考訳(メタデータ) (2021-08-05T19:05:57Z) - MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down
Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。
このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。
実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文 参考訳(メタデータ) (2020-08-27T13:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。