論文の概要: Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2603.03939v1
- Date: Wed, 04 Mar 2026 10:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.274587
- Title: Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection
- Title(参考訳): 2D-3D多次元産業異常検出のためのクロスモーダルマッピングとデュアルブランチ再構成
- Authors: Radia Daci, Vito Renò, Cosimo Patruno, Angelo Cardellicchio, Abdelmalik Taleb-Ahmed, Marco Leo, Cosimo Distante,
- Abstract要約: textbfCMDR-IADは、2D+3Dマルチモーダルおよび単一モダリティ設定における信頼性の高い異常検出のための教師なしフレームワークである。
CMDR-IADは、メモリバンクなしで動作しながら最先端のパフォーマンスを実現し、イメージレベルのAUROC(I-AUROC)97.3%、ピクセルレベルのAUROC(P-AUROC)99.6%、AUPRO97.6%に達した。
- 参考スコア(独自算出の注目度): 6.632019014616859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal industrial anomaly detection benefits from integrating RGB appearance with 3D surface geometry, yet existing \emph{unsupervised} approaches commonly rely on memory banks, teacher-student architectures, or fragile fusion schemes, limiting robustness under noisy depth, weak texture, or missing modalities. This paper introduces \textbf{CMDR-IAD}, a lightweight and modality-flexible unsupervised framework for reliable anomaly detection in 2D+3D multimodal as well as single-modality (2D-only or 3D-only) settings. \textbf{CMDR-IAD} combines bidirectional 2D$\leftrightarrow$3D cross-modal mapping to model appearance-geometry consistency with dual-branch reconstruction that independently captures normal texture and geometric structure. A two-part fusion strategy integrates these cues: a reliability-gated mapping anomaly highlights spatially consistent texture-geometry discrepancies, while a confidence-weighted reconstruction anomaly adaptively balances appearance and geometric deviations, yielding stable and precise anomaly localization even in depth-sparse or low-texture regions. On the MVTec 3D-AD benchmark, CMDR-IAD achieves state-of-the-art performance while operating without memory banks, reaching 97.3\% image-level AUROC (I-AUROC), 99.6\% pixel-level AUROC (P-AUROC), and 97.6\% AUPRO. On a real-world polyurethane cutting dataset, the 3D-only variant attains 92.6\% I-AUROC and 92.5\% P-AUROC, demonstrating strong effectiveness under practical industrial conditions. These results highlight the framework's robustness, modality flexibility, and the effectiveness of the proposed fusion strategies for industrial visual inspection. Our source code is available at https://github.com/ECGAI-Research/CMDR-IAD/
- Abstract(参考訳): マルチモーダル産業異常検出の利点は、RGBの外観を3次元表面幾何学と統合することであるが、既存の 'emph{unsupervised} アプローチは、一般的に、メモリバンク、教師-学生アーキテクチャ、または脆弱な融合スキームに依存し、ノイズの多い深さ、弱いテクスチャ、または欠落したモダリティを制限している。
本稿では,2D+3Dマルチモーダルにおける信頼性の高い異常検出のための軽量かつモダリティフレキシブルな非教師付きフレームワークである‘textbf{CMDR-IAD} と,単一モダリティ(2Dのみまたは3Dのみ)の設定を紹介する。
\textbf{CMDR-IAD} は、二方向2D$\leftrightarrow$3Dのクロスモーダルマッピングとモデル外見-幾何学的整合性、および通常のテクスチャと幾何学的構造を独立にキャプチャするデュアルブランチ再構成を組み合わせたものである。
信頼が付与されたマッピングの異常は空間的に一貫したテクスチャ・ジオメトリーの相違を強調し、信頼の重み付けされた再構築は外観と幾何学的偏差を順応的にバランスさせ、深さスパース領域や低テクスチャ領域においても安定かつ正確な異常な局所化をもたらす。
MVTec 3D-ADベンチマークでは、CMDR-IADはメモリバンクなしで動作しながら最先端のパフォーマンスを達成し、イメージレベルAUROC (I-AUROC) 97.3\%、ピクセルレベルAUROC (P-AUROC) 99.6\%、AUPRO97.6\%に達する。
実世界のポリウレタン切断データセットでは、3Dのみの変異体は92.6 % I-AUROCと92.5 % P-AUROCを獲得し、工業的条件下では強い効果を示す。
これらの結果から, 本フレームワークの堅牢性, モダリティの柔軟性, 産業視覚検査における融合戦略の有効性が明らかになった。
ソースコードはhttps://github.com/ECGAI-Research/CMDR-IAD/で公開されています。
関連論文リスト
- Robust Mesh Saliency GT Acquisition in VR via View Cone Sampling and Geometric Smoothing [59.12032628787018]
バーチャルリアリティー(VR)における人中心視覚モデリングには3次元メッシュサリエンシ基底真理が不可欠である
現在のVRアイトラッキングパイプラインは、単一線サンプリングとユークリッドのスムース化に依存しており、テクスチャの注意を喚起し、ギャップをまたいだ信号の漏洩を引き起こす。
本稿では,これらの制約に対処する頑健な枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:20:12Z) - 2D_3D Feature Fusion via Cross-Modal Latent Synthesis and Attention Guided Restoration for Industrial Anomaly Detection [9.873449426376787]
マルチモーダル・アテンショナル・フュージョン・リカバリ(MAFR)を新たに提案する。
MAFRは、共有核融合エンコーダを用いて、RGB画像と点雲から統一された潜在空間を合成し、その後、注意誘導されたモダリティ特異的デコーダを付加する。
異常は入力特徴と復元された特徴との間の再構成誤差を測定することで局所化される。
論文 参考訳(メタデータ) (2025-10-20T03:57:50Z) - Where, Not What: Compelling Video LLMs to Learn Geometric Causality for 3D-Grounding [0.8883733362171032]
この問題に対処するために,What-Where Representation Re-Forming (W2R2) と呼ばれる新しいトレーニングフレームワークを提案する。
提案手法は,2次元特徴を「何」識別のための意味的ビーコン,3次元特徴を「Where」ローカライゼーションのための空間的アンカーとして指定することにより,モデルの内部空間を根本的に改善する。
ScanReferとScanQAで行った実験では、W2R2の有効性が示され、ローカライゼーションの精度とロバスト性が大きく向上した。
論文 参考訳(メタデータ) (2025-10-19T22:40:18Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets [90.99212668875971]
Step1X-3Dは、データの不足、アルゴリズムの制限、エコシステムの断片化といった課題に対処するオープンフレームワークである。
拡散型テクスチャ合成モジュールとハイブリッドVAE-DiTジオメトリジェネレータを組み合わせた2段階の3Dネイティブアーキテクチャを提案する。
ベンチマークの結果は、既存のオープンソースメソッドを超える最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-05-12T16:56:30Z) - Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - R3D-AD: Reconstruction via Diffusion for 3D Anomaly Detection [12.207437451118036]
3次元異常検出は、精密製造における局所固有の欠陥のモニタリングにおいて重要な役割を担っている。
埋め込みベースおよび再構築ベースのアプローチは、最も人気があり、成功した方法の一つである。
本稿では, 高精度な3次元異常検出のための拡散モデルにより, 異常点雲を再構成するR3D-ADを提案する。
論文 参考訳(メタデータ) (2024-07-15T16:10:58Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。