論文の概要: IAD-Unify: A Region-Grounded Unified Model for Industrial Anomaly Segmentation, Understanding, and Generation
- arxiv url: http://arxiv.org/abs/2604.12440v1
- Date: Tue, 14 Apr 2026 08:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.338567
- Title: IAD-Unify: A Region-Grounded Unified Model for Industrial Anomaly Segmentation, Understanding, and Generation
- Title(参考訳): IAD-Unify:産業の異常分割・理解・生成のための地域別統一モデル
- Authors: Haoyu Zheng, Tianwei Lin, Wei Wang, Zhuonan Wang, Wenqiao Zhang, Jiaqi Zhu, Feifei Shao,
- Abstract要約: 実世界の産業検査では、欠陥をローカライズし、自然言語で説明し、制御された欠陥編集を生成する必要がある。
IAD-Unifyは,凍結したDINOv2系領域の専門家が正確な異常証拠を提供する,デュアルエンコーダ統合フレームワークである。
IAD-Unifyは、トレーニング中に見えないカテゴリ、堅牢なクロスカテゴリの一般化など、MMADベンチマークで強力なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 21.900464211494022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world industrial inspection requires not only localizing defects, but also explaining them in natural language and generating controlled defect edits. However, existing approaches fail to jointly support all three capabilities within a unified framework and evaluation protocol. We propose IAD-Unify, a dual-encoder unified framework in which a frozen DINOv2-based region expert supplies precise anomaly evidence to a shared Qwen3.5-4B vision-language backbone via lightweight token injection, jointly enabling anomaly segmentation, region-grounded understanding, and mask-guided generation. To enable unified evaluation, we further construct Anomaly-56K, a comprehensive unified multi-task IAD evaluation platform, spanning 59,916 images across 24 categories and 104 defect variants. Controlled ablations yield four findings: (i) region grounding is the decisive mechanism for understanding, removing it degrades location accuracy by >76 pp; (ii) predicted-region performance closely matches oracle, confirming deployment viability; (iii) region-grounded generation achieves the best full-image fidelity and masked-region perceptual quality; and (iv) pre-initialized joint training improves understanding at negligible generation cost (-0.16 dB). IAD-Unify further achieves strong performance on the MMAD benchmark, including categories unseen during training, demonstrating robust cross-category generalization.
- Abstract(参考訳): 実世界の産業検査は欠陥のローカライズだけでなく、自然言語で説明し、制御された欠陥編集を生成する必要がある。
しかし、既存のアプローチは、統一されたフレームワークと評価プロトコル内の3つの機能全てを共同でサポートしない。
IAD-Unifyは、凍結したDINOv2ベースの領域の専門家が、軽量トークン注入により共有Qwen3.5-4B視覚言語バックボーンに正確な異常証拠を供給し、異常セグメンテーション、領域的理解、マスク誘導生成を共同で可能にした、デュアルエンコーダ統合フレームワークである。
Anomaly-56Kは、24のカテゴリに59,916の画像と104の欠陥を網羅した総合的なマルチタスクIAD評価プラットフォームである。
コントロールされたアブレーションは4つの結果を得た。
(i)領域接地は理解のための決定的なメカニズムであり、位置精度を76 pp; に低下させる。
(二 予測地域性能がオラクルと密接に一致し、展開可能性を確認すること。)
三 地域接地世代が、最高のフルイメージの忠実度及び仮面領域の知覚品質を達成すること。
(4)初期化共同訓練は、無視可能な生成コスト(-0.16dB)での理解を向上させる。
IAD-Unifyはさらに、トレーニング中に見えないカテゴリ、堅牢なクロスカテゴリの一般化など、MMADベンチマークで強力なパフォーマンスを実現している。
関連論文リスト
- Boundary-aware Prototype-driven Adversarial Alignment for Cross-Corpus EEG Emotion Recognition [6.313563501854241]
クロスコーパス脳波感情認識のためのPAA(Prototype-driven Adrial Alignment)フレームワークを提案する。
提案手法は,感情認識を関係駆動型表現学習問題として再構成する。
SEED、SEED-IV、SEED-Vの実験は、4つのクロスコーパス評価プロトコル下での最先端性能を示す。
論文 参考訳(メタデータ) (2026-03-18T02:28:05Z) - AINet: Anchor Instances Learning for Regional Heterogeneity in Whole Slide Image [61.54860340942449]
本稿では,その地域(地域)に代表されるインスタンスのコンパクトなサブセットであるアンカーインスタンス(AI)の概念を導入し,バッグ(グローバル)レベルで識別する。
これらのAIは、地域間の相互作用をガイドする意味的な参照として機能し、地域多様性を維持しながら非差別的なパターンを修正する。
我々は、単純な予測器を使用し、FLOPやパラメータを著しく少なくした最先端の手法を超越した、簡潔で効果的なフレームワークであるAINetを開発した。
論文 参考訳(メタデータ) (2026-02-21T09:36:27Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Exploring the Relationship between Samples and Masks for Robust Defect
Localization [1.90365714903665]
本稿では,モデルプロセスなしで欠陥パターンを直接検出する一段階フレームワークを提案する。
欠陥の位置を示す可能性のある明示的な情報は、直接マッピングを学ぶことを避けるために意図的に除外される。
その結果,提案手法はF1-ScoreのSOTA法よりも2.9%高い値を示した。
論文 参考訳(メタデータ) (2023-06-19T06:41:19Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。