論文の概要: WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2603.06313v1
- Date: Fri, 06 Mar 2026 14:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.892532
- Title: WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection
- Title(参考訳): WMoE-CLIP:ゼロショット異常検出のためのウェーブレット強化混合学習
- Authors: Peng Chen, Chao Huang,
- Abstract要約: ゼロショット異常検出(ZSAD)のためのウェーブレット強化実験用混合学習法を提案する。
変分オートエンコーダは、グローバルな意味表現をモデル化し、それらを多様な異常パターンへの適応性を高めるプロンプトに統合するために用いられる。
14の産業用および医療用データセットに対する実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 9.097817457018179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models have recently shown strong generalization in zero-shot anomaly detection (ZSAD), enabling the detection of unseen anomalies without task-specific supervision. However, existing approaches typically rely on fixed textual prompts, which struggle to capture complex semantics, and focus solely on spatial-domain features, limiting their ability to detect subtle anomalies. To address these challenges, we propose a wavelet-enhanced mixture-of-experts prompt learning method for ZSAD. Specifically, a variational autoencoder is employed to model global semantic representations and integrate them into prompts to enhance adaptability to diverse anomaly patterns. Wavelet decomposition extracts multi-frequency image features that dynamically refine textual embeddings through cross-modal interactions. Furthermore, a semantic-aware mixture-of-experts module is introduced to aggregate contextual information. Extensive experiments on 14 industrial and medical datasets demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): 視覚言語モデルは、最近ゼロショット異常検出(ZSAD)において強力な一般化を示しており、タスク固有の監督なしに見えない異常を検出することができる。
しかし、既存のアプローチは通常、複雑な意味論を捉えるのに苦労する固定されたテキストプロンプトに依存し、空間領域の特徴のみに焦点をあて、微妙な異常を検出する能力を制限する。
これらの課題に対処するために、我々はZSADのためのウェーブレット強化された実験用混合学習法を提案する。
具体的には、グローバルな意味表現をモデル化し、多様な異常パターンへの適応性を高めるプロンプトに統合するために、変分オートエンコーダが使用される。
ウェーブレット分解は、クロスモーダル相互作用を通じてテキスト埋め込みを動的に洗練する多周波画像特徴を抽出する。
さらに、コンテキスト情報を集約するために、セマンティック・アウェア・ミックス・オブ・エキスパート・モジュールが導入された。
14の産業用および医療用データセットに対する大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- PromptMAD: Cross-Modal Prompting for Multi-Class Visual Anomaly Localization [9.018570847586878]
本稿では,教師なし視覚異常検出と局所化のためのクロスモーダルプロンプトフレームワークPromptMADを提案する。
本手法は,意味的コンテキストによる視覚的再構成を強化し,微妙・テクスチュラルな異常の検出を改善する。
我々のアーキテクチャには、マルチスケールの畳み込み機能とトランスフォーマーに基づく空間的注意を融合させる教師付きセグメンタも含まれている。
論文 参考訳(メタデータ) (2026-01-30T03:04:06Z) - PromptMoE: Generalizable Zero-Shot Anomaly Detection via Visually-Guided Prompt Mixtures [8.502253878981849]
本稿では,ZSADのための素早い学習のための構成的アプローチを提案する。
$mathttPromptMoE$は、構成可能なセマンティックプリミティブの基底セットとして機能する専門家プロンプトのプールを学ぶ。
この概念を,視覚誘導型プロンプト混合(VGMoP)により実現し,多様な正常および異常な専門家状態プロンプトを集約する画像ゲートスパースMoEを用いて実現した。
論文 参考訳(メタデータ) (2025-11-22T16:41:18Z) - Beyond Human-prompting: Adaptive Prompt Tuning with Semantic Alignment for Anomaly Detection [20.650740481670276]
textbfAdaptive textbfPrompt textbfTuning with semantic alignment for Anomaly Detection (APT)を提案する。
APTは、ノイズ摂動を伴う自己生成異常サンプルを使用して、異なるシナリオでコンテキスト依存異常をキャプチャする学習可能なプロンプトを訓練する。
本システムは,複数のベンチマークデータセットに対して,先行知識を必要とせず,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-22T07:26:56Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [109.72772150095646]
FAPromptは、精密なZSADのためのきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
産業的欠陥と医療的異常の両方をカバーする19の実世界のデータセットの実験は、FAPromptが画像レベルのZSADタスクとピクセルレベルのZSADタスクの両方で最先端の手法を大幅に上回っていることを実証している。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。