論文の概要: Referring Industrial Anomaly Segmentation
- arxiv url: http://arxiv.org/abs/2602.03673v1
- Date: Tue, 03 Feb 2026 15:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.554654
- Title: Referring Industrial Anomaly Segmentation
- Title(参考訳): 産業用異常セグメンテーションの紹介
- Authors: Pengfei Yue, Xiaokang Jiang, Yilin Lu, Jianghang Lin, Shengchuan Zhang, Liujuan Cao,
- Abstract要約: 産業異常検出(IAD)は製造に不可欠であるが、従来の手法では課題に直面している。
本稿では,検出の誘導に言語を活用するパラダイムであるReferring Industrial Anomaly (RIAS)を提案する。
これをサポートするためにMVTec-Refデータセットを導入し,多様な参照表現を用いて設計し,異常パターンに着目した。
- 参考スコア(独自算出の注目度): 38.4461918800367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial Anomaly Detection (IAD) is vital for manufacturing, yet traditional methods face significant challenges: unsupervised approaches yield rough localizations requiring manual thresholds, while supervised methods overfit due to scarce, imbalanced data. Both suffer from the "One Anomaly Class, One Model" limitation. To address this, we propose Referring Industrial Anomaly Segmentation (RIAS), a paradigm leveraging language to guide detection. RIAS generates precise masks from text descriptions without manual thresholds and uses universal prompts to detect diverse anomalies with a single model. We introduce the MVTec-Ref dataset to support this, designed with diverse referring expressions and focusing on anomaly patterns, notably with 95% small anomalies. We also propose the Dual Query Token with Mask Group Transformer (DQFormer) benchmark, enhanced by Language-Gated Multi-Level Aggregation (LMA) to improve multi-scale segmentation. Unlike traditional methods using redundant queries, DQFormer employs only "Anomaly" and "Background" tokens for efficient visual-textual integration. Experiments demonstrate RIAS's effectiveness in advancing IAD toward open-set capabilities. Code: https://github.com/swagger-coder/RIAS-MVTec-Ref.
- Abstract(参考訳): 産業異常検出(IAD)は製造に不可欠であるが、従来の手法では、手動のしきい値を必要とする大まかなローカライゼーションが得られ、教師なしの手法は、不足した不均衡なデータのために過度に適合する。
どちらも"One Anomaly Class, One Model"の制限に悩まされている。
そこで本研究では,検出のガイドに言語を活用するパラダイムであるReferring Industrial Anomaly Segmentation (RIAS)を提案する。
RIASは手動のしきい値のないテキスト記述から正確なマスクを生成し、普遍的なプロンプトを使用して単一のモデルで多様な異常を検出する。
我々はMVTec-Refデータセットを導入し、様々な参照表現で設計され、異常パターン、特に95%の小さな異常に焦点をあてる。
また,マルチスケールセグメンテーションを改善するためにLanguage-Gated Multi-Level Aggregation (LMA)によって強化されたDQFormerを用いたDual Query Tokenを提案する。
冗長なクエリを使用する従来のメソッドとは異なり、DQFormerは効率的なビジュアルテキスト統合のために"異常"と"背景"トークンのみを使用する。
RIASがIADをオープンソースに進める上での有効性を実証する実験がある。
コード:https://github.com/swagger-coder/RIAS-MVTec-Ref
関連論文リスト
- IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2025-10-16T02:48:05Z) - LR-IAD:Mask-Free Industrial Anomaly Detection with Logical Reasoning [1.3124513975412255]
産業異常検出(IAD)は欠陥を特定することで製品品質を確保するために重要である。
既存の視覚言語モデル(VLM)とMLLM(Multimodal Large Language Models)はいくつかの制限に対処するが、マスクアノテーションに依存している。
授業の不均衡に対処するために,授業中に稀な欠陥パターンを動的に優先順位付けする報酬関数を提案する。
論文 参考訳(メタデータ) (2025-04-28T06:52:35Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models [29.078437003042357]
Zero-Shot Anomaly Detection (ZSAD)はADパラダイムである。
本稿では,ZSAD と推論のための視覚アシスタントである Anomaly-OneVision (Anomaly-OV) を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:50:43Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。