論文の概要: Resilient Multimodal Industrial Surface Defect Detection with Uncertain Sensors Availability
- arxiv url: http://arxiv.org/abs/2509.02962v1
- Date: Wed, 03 Sep 2025 03:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.395125
- Title: Resilient Multimodal Industrial Surface Defect Detection with Uncertain Sensors Availability
- Title(参考訳): 不確かさセンサを用いたレジリエントマルチモーダル表面欠陥検出
- Authors: Shuai Jiang, Yunfeng Ma, Jingyu Zhou, Yuan Bian, Yaonan Wang, Min Liu,
- Abstract要約: マルチモーダル工業用表面欠陥検出(MISDD)は,RGBと3Dモダリティを融合させることにより,工業製品の欠陥を特定し,発見することを目的としている。
本稿は,MISDDにおけるセンサの不確実性に起因するモダリティ欠落問題に焦点をあてる。
- 参考スコア(独自算出の注目度): 36.47453216758195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal industrial surface defect detection (MISDD) aims to identify and locate defect in industrial products by fusing RGB and 3D modalities. This article focuses on modality-missing problems caused by uncertain sensors availability in MISDD. In this context, the fusion of multiple modalities encounters several troubles, including learning mode transformation and information vacancy. To this end, we first propose cross-modal prompt learning, which includes: i) the cross-modal consistency prompt serves the establishment of information consistency of dual visual modalities; ii) the modality-specific prompt is inserted to adapt different input patterns; iii) the missing-aware prompt is attached to compensate for the information vacancy caused by dynamic modalities-missing. In addition, we propose symmetric contrastive learning, which utilizes text modality as a bridge for fusion of dual vision modalities. Specifically, a paired antithetical text prompt is designed to generate binary text semantics, and triple-modal contrastive pre-training is offered to accomplish multimodal learning. Experiment results show that our proposed method achieves 73.83% I-AUROC and 93.05% P-AUROC with a total missing rate 0.7 for RGB and 3D modalities (exceeding state-of-the-art methods 3.84% and 5.58% respectively), and outperforms existing approaches to varying degrees under different missing types and rates. The source code will be available at https://github.com/SvyJ/MISDD-MM.
- Abstract(参考訳): マルチモーダル工業用表面欠陥検出(MISDD)は,RGBと3Dモダリティを融合させることにより,工業製品の欠陥を特定し,発見することを目的としている。
本稿は,MISDDにおけるセンサの不確実性に起因するモダリティ欠落問題に焦点をあてる。
この文脈では、複数のモダリティの融合は、学習モード変換や情報空きなど、いくつかの問題に遭遇する。
この目的のために,我々はまず,次のようなモーダル・プロンプト・ラーニングを提案する。
一 双対の視覚的モダリティの情報整合性の確立に資する横断的整合性の促進
二 異なる入力パターンを適応させるため、モダリティ特化プロンプトを挿入すること。
三 ダイナミックモダリティの欠落による情報空白を補うために、欠落認識プロンプトを付設する。
さらに,テキストのモダリティを2つの視覚的モダリティの融合のためのブリッジとして利用する対称コントラスト学習を提案する。
具体的には、対のアンチテティカルテキストプロンプトがバイナリテキストセマンティクスを生成するように設計され、マルチモーダル学習を実現するために、トリプルモーダルコントラスト事前学習が提供される。
実験の結果,RGBと3Dモダリティの合計欠落率0.7で73.83%のI-AUROCと93.05%のP-AUROCを達成し,それぞれ3.84%,5.58%で既存手法よりも高い性能を示した。
ソースコードはhttps://github.com/SvyJ/MISDD-MMで入手できる。
関連論文リスト
- RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。
我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文 参考訳(メタデータ) (2024-07-27T03:21:44Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [45.24784242117999]
テキストベースPerson Search (TBPS) は、クロスモーダル情報融合において重要な課題に直面している。
SCMM(Sew and Masked Modeling)は,2つの相補的なメカニズムによってこれらの融合課題に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。