論文の概要: 2D_3D Feature Fusion via Cross-Modal Latent Synthesis and Attention Guided Restoration for Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2510.21793v1
- Date: Mon, 20 Oct 2025 03:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.517864
- Title: 2D_3D Feature Fusion via Cross-Modal Latent Synthesis and Attention Guided Restoration for Industrial Anomaly Detection
- Title(参考訳): 産業異常検出のためのクロスモーダルラテント合成とアテンションガイドによる2D_3D特徴核融合
- Authors: Usman Ali, Ali Zia, Abdul Rehman, Umer Ramzan, Zohaib Hassan, Talha Sattar, Jing Wang, Wei Xiang,
- Abstract要約: マルチモーダル・アテンショナル・フュージョン・リカバリ(MAFR)を新たに提案する。
MAFRは、共有核融合エンコーダを用いて、RGB画像と点雲から統一された潜在空間を合成し、その後、注意誘導されたモダリティ特異的デコーダを付加する。
異常は入力特徴と復元された特徴との間の再構成誤差を測定することで局所化される。
- 参考スコア(独自算出の注目度): 9.873449426376787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial anomaly detection (IAD) increasingly benefits from integrating 2D and 3D data, but robust cross-modal fusion remains challenging. We propose a novel unsupervised framework, Multi-Modal Attention-Driven Fusion Restoration (MAFR), which synthesises a unified latent space from RGB images and point clouds using a shared fusion encoder, followed by attention-guided, modality-specific decoders. Anomalies are localised by measuring reconstruction errors between input features and their restored counterparts. Evaluations on the MVTec 3D-AD and Eyecandies benchmarks demonstrate that MAFR achieves state-of-the-art results, with a mean I-AUROC of 0.972 and 0.901, respectively. The framework also exhibits strong performance in few-shot learning settings, and ablation studies confirm the critical roles of the fusion architecture and composite loss. MAFR offers a principled approach for fusing visual and geometric information, advancing the robustness and accuracy of industrial anomaly detection. Code is available at https://github.com/adabrh/MAFR
- Abstract(参考訳): 産業異常検出(IAD)は2Dデータと3Dデータを統合することでますます恩恵を受けるが、堅牢な相互融合は依然として困難である。
共有核融合エンコーダを用いてRGB画像と点雲から統一された潜伏空間を合成し,その後に注意誘導・モダリティ特異的デコーダを付加する,新しい非教師付きフレームワークであるマルチモーダルアテンション駆動核融合(MAFR)を提案する。
異常は入力特徴と復元された特徴との間の再構成誤差を測定することで局所化される。
MVTec 3D-ADとEyecandiesのベンチマークによる評価は、MAFRがそれぞれ0.972と0.901の平均I-AUROCを達成していることを示している。
このフレームワークは、数ショットの学習環境でも強力な性能を示し、融合アーキテクチャと複合損失の重要な役割をアブレーション研究で確認する。
MAFRは、視覚情報と幾何学情報を融合し、産業異常検出の堅牢性と精度を向上させるための原則化されたアプローチを提供する。
コードはhttps://github.com/adabrh/MAFRで入手できる。
関連論文リスト
- IAENet: An Importance-Aware Ensemble Model for 3D Point Cloud-Based Anomaly Detection [2.08058961865456]
重要なボトルネックは、3Dで2Dに匹敵する強力な事前訓練された基盤のバックボーンがないことだ、と私たちは主張する。
本稿では,2次元事前学習エキスパートを3Dエキスパートモデルに相乗させるアンサンブルフレームワークであるImportance-Aware Ensemble Network (IAENet)を提案する。
IAENetは、明らかに偽陽性率の低い新しい最先端技術を実現し、産業展開における実用的価値を強調している。
論文 参考訳(メタデータ) (2025-08-28T07:19:07Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
本稿では、相関駆動型分解特徴のモデル化と高レベルグラフ表現の理由について論じる。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合と医用画像融合タスクにおける最先端手法と比較して, 競争力のある結果を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - mmFUSION: Multimodal Fusion for 3D Objects Detection [18.401155770778757]
マルチセンサー融合は、自動運転システムにおける正確な3次元物体検出に不可欠である。
本稿では,これらの課題を克服するために,新たな中間レベルマルチモーダル融合手法を提案する。
mmdetection3Dプロジェクトプラグインのコードは近く公開される予定だ。
論文 参考訳(メタデータ) (2023-11-07T15:11:27Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。