論文の概要: PromptMoE: Generalizable Zero-Shot Anomaly Detection via Visually-Guided Prompt Mixtures
- arxiv url: http://arxiv.org/abs/2511.18116v1
- Date: Sat, 22 Nov 2025 16:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.636876
- Title: PromptMoE: Generalizable Zero-Shot Anomaly Detection via Visually-Guided Prompt Mixtures
- Title(参考訳): PromptMoE:ビジュアルガイドによる汎用ゼロショット異常検出
- Authors: Yuheng Shao, Lizhang Wang, Changhao Li, Peixian Chen, Qinyuan Liu,
- Abstract要約: 本稿では,ZSADのための素早い学習のための構成的アプローチを提案する。
$mathttPromptMoE$は、構成可能なセマンティックプリミティブの基底セットとして機能する専門家プロンプトのプールを学ぶ。
この概念を,視覚誘導型プロンプト混合(VGMoP)により実現し,多様な正常および異常な専門家状態プロンプトを集約する画像ゲートスパースMoEを用いて実現した。
- 参考スコア(独自算出の注目度): 8.502253878981849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-Shot Anomaly Detection (ZSAD) aims to identify and localize anomalous regions in images of unseen object classes. While recent methods based on vision-language models like CLIP show promise, their performance is constrained by existing prompt engineering strategies. Current approaches, whether relying on single fixed, learnable, or dense dynamic prompts, suffer from a representational bottleneck and are prone to overfitting on auxiliary data, failing to generalize to the complexity and diversity of unseen anomalies. To overcome these limitations, we propose $\mathtt{PromptMoE}$. Our core insight is that robust ZSAD requires a compositional approach to prompt learning. Instead of learning monolithic prompts, $\mathtt{PromptMoE}$ learns a pool of expert prompts, which serve as a basis set of composable semantic primitives, and a visually-guided Mixture-of-Experts (MoE) mechanism to dynamically combine them for each instance. Our framework materializes this concept through a Visually-Guided Mixture of Prompt (VGMoP) that employs an image-gated sparse MoE to aggregate diverse normal and abnormal expert state prompts, generating semantically rich textual representations with strong generalization. Extensive experiments across 15 datasets in industrial and medical domains demonstrate the effectiveness and state-of-the-art performance of $\mathtt{PromptMoE}$.
- Abstract(参考訳): Zero-Shot Anomaly Detection (ZSAD) は、見えないオブジェクトクラスの画像中の異常領域を特定し、ローカライズすることを目的としている。
CLIPのようなビジョン言語モデルに基づく最近の手法は有望であるが、それらのパフォーマンスは既存のプロンプトエンジニアリング戦略によって制約されている。
単一の固定された、学習可能な、あるいは密度の高い動的プロンプトに依存する現在のアプローチは、表現上のボトルネックに悩まされ、補助データに過度に適合する傾向にあり、目に見えない異常の複雑さと多様性を一般化することができない。
これらの制限を克服するために、$\mathtt{PromptMoE}$を提案する。
我々の中核的な洞察は、堅牢なZSADは素早い学習のために構成的なアプローチを必要とすることである。
モノリシックなプロンプトを学ぶ代わりに、$\matht{PromptMoE}$は、構成可能なセマンティックプリミティブのベースセットとして機能する専門家プロンプトのプールと、インスタンス毎に動的にそれらを結合する視覚誘導型Mixture-of-Experts(MoE)メカニズムを学ぶ。
我々のフレームワークは、画像付きスパースMoEを用いて、多種多様な正規および異常な専門家状態プロンプトを集約し、強力な一般化を伴う意味的にリッチなテキスト表現を生成するビジュアルガイド型Prompt(VGMoP)によって、この概念を実現する。
産業ドメインと医療ドメインの15データセットにわたる大規模な実験は、$\mathtt{PromptMoE}$の有効性と最先端のパフォーマンスを示している。
関連論文リスト
- Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - Accelerating Conditional Prompt Learning via Masked Image Modeling for Vision-Language Models [1.1925232472331495]
CLIPのようなビジョン言語モデル(VLM)はゼロショット学習に優れていますが、新しいタスクに適応するためにはリソース集約的なトレーニングが必要です。
本稿では,マスク付き画像モデリング(MIM)を既存のVLMパイプラインに統合することにより,条件付きプロンプト学習を強化するプラグイン・アンド・プレイフレームワークであるProMIMを紹介する。
論文 参考訳(メタデータ) (2025-08-07T00:08:31Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。
我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-06-26T05:28:57Z) - MemoryOut: Learning Principal Features via Multimodal Sparse Filtering Network for Semi-supervised Video Anomaly Detection [30.470777079947958]
再構成や予測に基づくビデオ異常検出(VAD)手法は2つの重要な課題に直面している。
強い一般化能力は、しばしば正確な再構築や異常事象の予測をもたらす。
低レベルの外観と動きの手がかりにのみ依存することは、複雑なシーンから異常な出来事における高レベルの意味を識別する能力を制限する。
論文 参考訳(メタデータ) (2025-06-03T07:14:57Z) - Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.79428219851289]
Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。
Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
論文 参考訳(メタデータ) (2024-12-04T18:58:10Z) - Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:29:53Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。