論文の概要: PatchEAD: Unifying Industrial Visual Prompting Frameworks for Patch-Exclusive Anomaly Detection
- arxiv url: http://arxiv.org/abs/2509.25856v1
- Date: Tue, 30 Sep 2025 06:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.048632
- Title: PatchEAD: Unifying Industrial Visual Prompting Frameworks for Patch-Exclusive Anomaly Detection
- Title(参考訳): PatchEAD: パッチ排他的異常検出のための産業用ビジュアルプロンプトフレームワークの統合
- Authors: Po-Han Huang, Jeng-Lin Li, Po-Hsuan Huang, Ming-Ching Chang, Wei-Chao Chen,
- Abstract要約: 本稿では,パッチに焦点をあてた一貫したPatch-Exclusive Anomaly Detection (PatchEAD)を提案する。
本実験では, テキスト機能がないにも関わらず, 先行作業に比べ, ショット数, バッチゼロショット性能が優れていた。
- 参考スコア(独自算出の注目度): 18.01960278963109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial anomaly detection is increasingly relying on foundation models, aiming for strong out-of-distribution generalization and rapid adaptation in real-world deployments. Notably, past studies have primarily focused on textual prompt tuning, leaving the intrinsic visual counterpart fragmented into processing steps specific to each foundation model. We aim to address this limitation by proposing a unified patch-focused framework, Patch-Exclusive Anomaly Detection (PatchEAD), enabling training-free anomaly detection that is compatible with diverse foundation models. The framework constructs visual prompting techniques, including an alignment module and foreground masking. Our experiments show superior few-shot and batch zero-shot performance compared to prior work, despite the absence of textual features. Our study further examines how backbone structure and pretrained characteristics affect patch-similarity robustness, providing actionable guidance for selecting and configuring foundation models for real-world visual inspection. These results confirm that a well-unified patch-only framework can enable quick, calibration-light deployment without the need for carefully engineered textual prompts.
- Abstract(参考訳): 産業の異常検出は、より強力な流通の一般化と現実の展開の迅速な適応を目指して、基礎モデルにますます依存している。
特に、過去の研究は主にテキスト・プロンプト・チューニングに重点を置いており、本質的な視覚的側面は各基礎モデル固有の処理ステップに断片化されている。
PatchEAD(Patch-Exclusive Anomaly Detection)は,様々な基礎モデルと互換性のあるトレーニング不要な異常検出を可能にするフレームワークである。
このフレームワークは、アライメントモジュールや前景マスキングを含む視覚的プロンプト技術を構築する。
本実験では, テキスト機能がないにも関わらず, 先行作業に比べ, ショット数, バッチゼロショット性能が優れていた。
さらに,バックボーン構造と事前学習した特性がパッチ類似性の堅牢性にどのように影響するかを考察し,現実の視覚検査のための基礎モデルの選択と構成のための実用的なガイダンスを提供する。
これらの結果は、十分に統一されたパッチオンリーのフレームワークが、慎重に設計されたテキストプロンプトを必要とせずに、迅速なキャリブレーションライトのデプロイを可能にすることを確認している。
関連論文リスト
- Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - Prompt-Driven Image Analysis with Multimodal Generative AI: Detection, Segmentation, Inpainting, and Interpretation [0.0]
本稿では,オープン語彙検出,アクセシブルセグメンテーション,テキストコンディショニング,視覚言語記述を組み合わせた統合パイプラインの実践事例について述べる。
我々は、しきい値調整、光形態によるマスク検査、リソース認識のデフォルトなど、脆さを低減する統合選択を強調した。
論文 参考訳(メタデータ) (2025-09-10T11:00:12Z) - All Patches Matter, More Patches Better: Enhance AI-Generated Image Detection via Panoptic Patch Learning [45.37237171823581]
AI生成画像(AIGI)の指数的成長は、堅牢で一般化可能な検出方法の緊急の必要性を浮き彫りにしている。
本稿では,系統解析によるAIGI検出の2つの重要な原則を確立する。
論文 参考訳(メタデータ) (2025-04-02T06:32:09Z) - Revisiting Tampered Scene Text Detection in the Era of Generative AI [33.38946428507517]
提案手法は,視覚的および見えない偽造型の両方を識別する能力について,法医学モデルの評価を行う。
本稿では,画像中の選択したテキストのテクスチャを微調整し,これらの領域を特定するためにモデルを訓練する,新しい効果的なトレーニングパラダイムを提案する。
また,テキストの特徴を識別することで,オープンセットの一般化を改善するフレームワークであるDAFを提案する。
論文 参考訳(メタデータ) (2024-07-31T08:17:23Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Self-Supervised Predictive Convolutional Attentive Block for Anomaly
Detection [97.93062818228015]
本稿では,再建に基づく機能を,新たな自己監督型予測アーキテクチャビルディングブロックに統合することを提案する。
我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。
画像やビデオの異常検出のための最先端フレームワークに組み込むことで,ブロックの汎用性を実証する。
論文 参考訳(メタデータ) (2021-11-17T13:30:31Z) - Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文 参考訳(メタデータ) (2021-07-25T13:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。