論文の概要: Text-Guided Multimodal Unified Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2604.22899v1
- Date: Fri, 24 Apr 2026 13:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.041977
- Title: Text-Guided Multimodal Unified Industrial Anomaly Detection
- Title(参考訳): テキストガイドによる多モード統一産業異常検出
- Authors: Zewen Li, Shuo Ye, Zitong Yu, Weicheng Xie, Linlin Shen,
- Abstract要約: そこで本研究では,テキストセマンティクスによって導かれる多モーダル産業異常検出フレームワークを提案する。
フレームワークは、Geometry-Aware Cross-Modal MapperとObject-Conditioned Textual Feature Adaptorの2つのコアモジュールで構成されている。
本手法は,教師なし環境下での分類とローカライゼーションにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 71.95719669933312
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Industrial anomaly detection based on RGB-3D multimodal data has emerged as a mainstream paradigm for intelligent quality inspection. However, existing unsupervised methods suffer from two critical limitations: ambiguous cross-modal alignment caused by the lack of high-level semantic guidance and insufficient geometric modeling for RGB-to-3D feature mapping. To address these issues, we propose a unified multimodal industrial anomaly detection framework guided by text semantics. The framework consists of two core modules: a Geometry-Aware Cross-Modal Mapper to preserve geometric structure during modality conversion, and an Object-Conditioned Textual Feature Adaptor to align multimodal features with semantic priors. Furthermore, we establish a unified learning paradigm for multimodal industrial anomaly detection, which breaks the one-model-one-class constraint and enables accurate anomaly detection across diverse classes using a single model. Extensive experiments on the MVTec 3D-AD and Eyecandies datasets demonstrate that our method achieves state-of-the-art performance in classification and localization under unsupervised settings.
- Abstract(参考訳): RGB-3Dマルチモーダルデータに基づく産業異常検出は知的品質検査の主流パラダイムとして浮上している。
しかし、既存の教師なし手法には、高レベルな意味指導の欠如とRGB-to-3D特徴マッピングの幾何的モデリングの欠如による曖昧なクロスモーダルアライメントの2つの限界がある。
これらの問題に対処するため,テキストセマンティクスで導かれる多モード産業異常検出フレームワークを提案する。
このフレームワークは、2つのコアモジュールで構成されている: 幾何対応のクロスモーダルマッパーは、モダリティ変換中の幾何学的構造を保存する。
さらに,マルチモーダル産業異常検出のための統一学習パラダイムを構築し,一モデル一級制約を破り,単一モデルを用いた多様なクラス間で正確な異常検出を可能にする。
MVTec 3D-ADデータセットとEyecandiesデータセットの大規模な実験により,教師なし環境下での分類とローカライゼーションにおける最先端性能が実証された。
関連論文リスト
- Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - See Eye to Eye: A Lidar-Agnostic 3D Detection Framework for Unsupervised
Multi-Target Domain Adaptation [7.489722641968593]
本稿では,ライダー間における最先端3D検出器の性能伝達のための,教師なしマルチターゲットドメイン適応フレームワークであるSEEを提案する。
提案手法は,検出ネットワークに渡す前に,基礎となる形状を補間し,異なるライダーからの物体の走査パターンを正規化する。
我々は、SEEが公開データセット上で有効であること、最先端の成果を達成できること、そして、我々のフレームワークの産業的応用を証明するために、新しい高解像度ライダーに定量的な結果を提供することを実証する。
論文 参考訳(メタデータ) (2021-11-17T23:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。