論文の概要: Human-free Prompted Based Anomaly Detection: prompt optimization with Meta-guiding prompt scheme
- arxiv url: http://arxiv.org/abs/2406.18197v1
- Date: Wed, 26 Jun 2024 09:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:59:06.936602
- Title: Human-free Prompted Based Anomaly Detection: prompt optimization with Meta-guiding prompt scheme
- Title(参考訳): 人為的プロンプトに基づく異常検出:メタガイドプロンプトスキームによる即時最適化
- Authors: Pi-Wei Chen, Jerry Chun-Wei Lin, Jia Ji, Feng-Hao Yeh, Chao-Chun Chen,
- Abstract要約: 事前学習された視覚言語モデル(VLM)は、数ショットの学習を通じて、様々な下流タスクに高い適応性を持つ。
従来の手法は、特定の異常なタイプの事前の知識を必要とする人為的なプロンプトに依存している。
我々のゴールは、データ駆動方式でプロンプトを最適に学習する、人間の自由なプロンプトベースの異常検出フレームワークを開発することである。
- 参考スコア(独自算出の注目度): 19.278039994431477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models (VLMs) are highly adaptable to various downstream tasks through few-shot learning, making prompt-based anomaly detection a promising approach. Traditional methods depend on human-crafted prompts that require prior knowledge of specific anomaly types. Our goal is to develop a human-free prompt-based anomaly detection framework that optimally learns prompts through data-driven methods, eliminating the need for human intervention. The primary challenge in this approach is the lack of anomalous samples during the training phase. Additionally, the Vision Transformer (ViT)-based image encoder in VLMs is not ideal for pixel-wise anomaly segmentation due to a locality feature mismatch between the original image and the output feature map. To tackle the first challenge, we have developed the Object-Attention Anomaly Generation Module (OAGM) to synthesize anomaly samples for training. Furthermore, our Meta-Guiding Prompt-Tuning Scheme (MPTS) iteratively adjusts the gradient-based optimization direction of learnable prompts to avoid overfitting to the synthesized anomalies. For the second challenge, we propose Locality-Aware Attention, which ensures that each local patch feature attends only to nearby patch features, preserving the locality features corresponding to their original locations. This framework allows for the optimal prompt embeddings by searching in the continuous latent space via backpropagation, free from human semantic constraints. Additionally, the modified locality-aware attention improves the precision of pixel-wise anomaly segmentation.
- Abstract(参考訳): 事前学習された視覚言語モデル(VLM)は、数ショットの学習を通じて様々な下流タスクに高度に適用可能であり、プロンプトベースの異常検出は有望なアプローチである。
従来の手法は、特定の異常なタイプの事前の知識を必要とする人為的なプロンプトに依存している。
我々のゴールは、データ駆動方式でプロンプトを最適に学習し、人間の介入の必要性をなくす、人間の自由なプロンプトベースの異常検出フレームワークを開発することである。
このアプローチの主な課題は、トレーニングフェーズにおける異常サンプルの欠如である。
さらに、VLMにおけるビジョントランスフォーマー(ViT)ベースの画像エンコーダは、元の画像と出力特徴マップとの局所性特徴ミスマッチによる画素ワイド異常セグメンテーションには理想的ではない。
最初の課題に取り組むため、我々は、トレーニング用異常サンプルを合成するオブジェクト指向異常生成モジュール(OAGM)を開発した。
さらに、MPTS(Meta-Guiding Prompt-Tuning Scheme)は、学習可能なプロンプトの勾配に基づく最適化方向を反復的に調整し、合成された異常に過度に適合しないようにする。
第2の課題として,ローカル性意識(Locality-Aware Attention)を提案する。各ローカルパッチ機能は,近傍のパッチ機能にのみ対応し,元のロケーションに対応するローカリティ機能を保持する。
このフレームワークは、人間の意味的な制約なしに、バックプロパゲーションを通じて連続的な潜伏空間を探索することで、最適なプロンプト埋め込みを可能にする。
さらに、修正された局所性認識アテンションにより、画素単位の異常セグメンテーションの精度が向上する。
関連論文リスト
- GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection [11.045394540409363]
大規模視覚言語モデル(LVLM)は、自然言語で導かれる視覚表現の導出に長けている。
近年の研究では、ゼロショット視覚異常検出(VAD)の課題に取り組むためにLVLMを用いている。
統一モデルを用いてこれらの課題に対処するために設計された、トレーニング不要のアプローチであるALFAを提案する。
論文 参考訳(メタデータ) (2024-04-15T10:42:22Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - LafitE: Latent Diffusion Model with Feature Editing for Unsupervised
Multi-class Anomaly Detection [12.596635603629725]
我々は,通常のデータのみにアクセス可能な場合に,複数のクラスに属するオブジェクトから異常を検出する統一モデルを開発した。
まず、生成的アプローチについて検討し、再構成のための潜伏拡散モデルについて検討する。
「拡散モデルの入力特徴空間を修正し、アイデンティティショートカットをさらに緩和する特徴編集戦略を導入する。」
論文 参考訳(メタデータ) (2023-07-16T14:41:22Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Feature Alignment by Uncertainty and Self-Training for Source-Free
Unsupervised Domain Adaptation [1.6498361958317636]
ほとんどの教師なし領域適応(UDA)手法は、ラベル付きソースイメージがモデル適応中に利用できると仮定する。
本稿では,事前学習したソースモデルと未ラベルのターゲット画像のみを用いる,ソースフリーなUDA手法を提案する。
本手法は,データ拡張を取り入れ,特徴発生器を2つの整合性目標で訓練することにより,アレータリックな不確実性を捕捉する。
論文 参考訳(メタデータ) (2022-08-31T14:28:36Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Indirect-Instant Attention Optimization for Crowd Counting in Dense
Scenes [3.8950254639440094]
SoftMax-Attentionに基づく間接インスタントアテンション最適化(IIAO)モジュール。
特殊変換は比較的粗い特徴をもたらすが、本来は人口密度分布によって予測的誤認可能性が異なる。
局所相関損失 (RCLoss) を調整し, 連続的なエラーが発生しやすい領域とスムーズな空間情報を検索する。
論文 参考訳(メタデータ) (2022-06-12T03:29:50Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。