論文の概要: Zero-Shot Industrial Anomaly Segmentation with Image-Aware Prompt Generation
- arxiv url: http://arxiv.org/abs/2504.13560v1
- Date: Fri, 18 Apr 2025 08:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 16:35:39.002809
- Title: Zero-Shot Industrial Anomaly Segmentation with Image-Aware Prompt Generation
- Title(参考訳): 画像認識型プロンプト生成によるゼロショット産業異常セグメンテーション
- Authors: SoYoung Park, Hyewon Lee, Mingyu Choi, Seunghoon Han, Jong-Ryul Lee, Sungsu Lim, Tae-Ho Kim,
- Abstract要約: 本稿では,動的なコンテキスト認識プロンプトを生成することにより,画像認識型プロンプト異常(IAP-AS)を解消する手法を提案する。
IAP-ASはF1-maxメートル法を最大10%改善し、優れた適応性と一般化を示す。
- 参考スコア(独自算出の注目度): 6.099856039827011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly segmentation is essential for industrial quality, maintenance, and stability. Existing text-guided zero-shot anomaly segmentation models are effective but rely on fixed prompts, limiting adaptability in diverse industrial scenarios. This highlights the need for flexible, context-aware prompting strategies. We propose Image-Aware Prompt Anomaly Segmentation (IAP-AS), which enhances anomaly segmentation by generating dynamic, context-aware prompts using an image tagging model and a large language model (LLM). IAP-AS extracts object attributes from images to generate context-aware prompts, improving adaptability and generalization in dynamic and unstructured industrial environments. In our experiments, IAP-AS improves the F1-max metric by up to 10%, demonstrating superior adaptability and generalization. It provides a scalable solution for anomaly segmentation across industries
- Abstract(参考訳): 異常セグメンテーションは産業品質、メンテナンス、安定性に不可欠である。
既存のテキスト誘導ゼロショット異常セグメンテーションモデルは有効であるが、様々な産業シナリオにおける適応性を制限する固定プロンプトに依存している。
これはフレキシブルでコンテキスト対応のプロンプト戦略の必要性を強調している。
本稿では,画像タグ付けモデルと大言語モデル(LLM)を用いて動的文脈認識プロンプトを生成することにより,異常セグメンテーションを向上させる画像認識プロンプト異常セグメンテーション(IAP-AS)を提案する。
IAP-ASは、画像からオブジェクト属性を抽出し、コンテキスト認識プロンプトを生成し、動的および非構造化産業環境における適応性と一般化を改善する。
我々の実験では、IAP-ASはF1-max測定を最大10%改善し、優れた適応性と一般化を示す。
産業間における異常セグメンテーションのためのスケーラブルなソリューションを提供する
関連論文リスト
- Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z) - One-shot In-context Part Segmentation [97.77292483684877]
パートセグメンテーションの課題に取り組むために,One-shot In-context Part (OIParts) フレームワークを提案する。
私たちのフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに対して、新しいアプローチを提供します。
我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2025-03-03T03:50:54Z) - FlexiCrackNet: A Flexible Pipeline for Enhanced Crack Segmentation with General Features Transfered from SAM [24.99233476254989]
FlexiCrackNetは、従来のディープラーニングパラダイムを大規模な事前学習モデルの強みとシームレスに統合する、新しいパイプラインである。
実験の結果、FlexiCrackNetは最先端の手法より優れ、ゼロショットの一般化、計算効率、セグメンテーションの堅牢性に優れていた。
これらの進歩は、自動クラック検出と包括的な構造的健康モニタリングシステムにおける現実的な応用のためのFlexiCrackNetの可能性を強調している。
論文 参考訳(メタデータ) (2025-01-31T02:37:09Z) - Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation [15.941958367737408]
Seg-TTOはゼロショットでオープンなセマンティックセグメンテーションのためのフレームワークである。
このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。
Seg-TTOは明確なパフォーマンス向上(いくつかのデータセットで最大27%のmIoU増加)を示し、新たな最先端の確立を実現している。
論文 参考訳(メタデータ) (2025-01-08T18:58:24Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding [39.73180294057053]
画像特徴のあるフレーズプロンプトを動的に更新するために,Diffusion UNet内の抽出帰納的フレーズアダプタ(EIPA)バイパスを提案する。
また,マルチレベル相互集約(MLMA)モジュールを設計し,複数レベル画像とフレーズ特徴を相互に融合してセグメンテーションの洗練を図る。
論文 参考訳(メタデータ) (2024-09-12T17:48:22Z) - MetaSeg: Content-Aware Meta-Net for Omni-Supervised Semantic
Segmentation [17.59676962334776]
弱いオブジェクトレベルのアノテーションから生成された擬似セグメンテーションラベルに必然的に存在するノイズラベル。
メタラーニングの最近の進歩に触発されて、クリーンラベルの背後に隠されたノイズを受動的に許容するのに苦労するのではなく、より実用的な解決策は、ノイズの多い領域を積極的に見つけることである、と私たちは主張する。
本稿では,任意のセグメンテーションモデルに対応するノイズインジケータとして,CAM-Netを主成分とするメタ学習に基づくセグメンテーション手法MetaSegを提案する。
論文 参考訳(メタデータ) (2024-01-22T07:31:52Z) - SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation [87.18373801829314]
In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。
単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
論文 参考訳(メタデータ) (2023-11-24T18:59:42Z) - FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation [42.89720785573885]
FreeSegはUnified、Universal、Open-Vocabulary Imageを実現するための汎用フレームワークである。
我々は,FreeSegが3つのセグメンテーションタスクの性能と一般化に新たな成果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-30T08:42:49Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。