論文の概要: BridgeNet: A Unified Multimodal Framework for Bridging 2D and 3D Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2507.19253v1
- Date: Fri, 25 Jul 2025 13:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.969074
- Title: BridgeNet: A Unified Multimodal Framework for Bridging 2D and 3D Industrial Anomaly Detection
- Title(参考訳): BridgeNet: 2Dおよび3D産業異常検出をブリッジするための統一マルチモーダルフレームワーク
- Authors: An Xiang, Zixuan Huang, Xitong Gao, Kejiang Ye, Cheng-zhong Xu,
- Abstract要約: 本稿では,新しい統合型マルチモーダル異常検出フレームワークを提案する。
コントリビューションは3つの重要な側面で構成されています。
実験の結果,MVTec-3D ADおよびEyecandiesデータセット上でのSOTA(State-of-the-art)よりも優れていた。
- 参考スコア(独自算出の注目度): 26.864423488101075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial anomaly detection for 2D objects has gained significant attention and achieved progress in anomaly detection (AD) methods. However, identifying 3D depth anomalies using only 2D information is insufficient. Despite explicitly fusing depth information into RGB images or using point cloud backbone networks to extract depth features, both approaches struggle to adequately represent 3D information in multimodal scenarios due to the disparities among different modal information. Additionally, due to the scarcity of abnormal samples in industrial data, especially in multimodal scenarios, it is necessary to perform anomaly generation to simulate real-world abnormal samples. Therefore, we propose a novel unified multimodal anomaly detection framework to address these issues. Our contributions consist of 3 key aspects. (1) We extract visible depth information from 3D point cloud data simply and use 2D RGB images to represent appearance, which disentangles depth and appearance to support unified anomaly generation. (2) Benefiting from the flexible input representation, the proposed Multi-Scale Gaussian Anomaly Generator and Unified Texture Anomaly Generator can generate richer anomalies in RGB and depth. (3) All modules share parameters for both RGB and depth data, effectively bridging 2D and 3D anomaly detection. Subsequent modules can directly leverage features from both modalities without complex fusion. Experiments show our method outperforms state-of-the-art (SOTA) on MVTec-3D AD and Eyecandies datasets. Code available at: https://github.com/Xantastic/BridgeNet
- Abstract(参考訳): 2次元物体の産業的異常検出は注目され、異常検出法(AD)の進歩を遂げた。
しかし,2次元情報のみを用いた3次元深度異常の同定は不十分である。
深度情報をRGB画像に明示的に融合させたり、奥行き特徴を抽出するためにポイントクラウドバックボーンネットワークを使用したりしても、どちらのアプローチも異なるモーダル情報間の相違により、マルチモーダルシナリオにおける3D情報を適切に表現するのに苦労している。
また, 産業データ, 特にマルチモーダルシナリオにおける異常サンプルの不足により, 実世界の異常サンプルをシミュレートする異常発生を行う必要がある。
そこで本研究では,これらの問題に対処する新しい統合マルチモーダル異常検出フレームワークを提案する。
コントリビューションは3つの重要な側面で構成されています。
1)3次元点雲データから可視深度情報を抽出し,2次元RGB画像を用いて外観を表現する。
2) フレキシブルな入力表現から,提案したマルチスケールガウス異常発生器と統一テクスチャ異常発生器は,RGBと深さのリッチな異常を生成することができる。
(3) すべてのモジュールはRGBデータと深度データの両方のパラメータを共有し, 効果的に2Dおよび3D異常検出を行う。
その後の加群は、複雑な融合なしに両方のモジュラリティの機能を直接利用することができる。
実験の結果,MVTec-3D ADおよびEyecandiesデータセット上でのSOTA(State-of-the-art)よりも優れていた。
https://github.com/Xantastic/BridgeNet
関連論文リスト
- Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes [59.78696921486972]
LiDARとRGBデータの融合により、屋外の3Dオブジェクト検出精度が向上する可能性がある。
両データモダリティからタスク関連情報を的確に抽出するMultiStream Detection (MuStD) ネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-25T14:20:16Z) - Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - M3DM-NR: RGB-3D Noisy-Resistant Industrial Anomaly Detection via Multimodal Denoising [63.39134873744748]
既存の産業異常検出手法は主に、原始RGB画像を用いた教師なし学習に重点を置いている。
本稿では,CLIPの強力なマルチモーダル識別機能を利用する新しい耐雑音性M3DM-NRフレームワークを提案する。
M3DM-NRは3D-RGBマルチモーダルノイズ異常検出において最先端の手法より優れていた。
論文 参考訳(メタデータ) (2024-06-04T12:33:02Z) - Dual-Branch Reconstruction Network for Industrial Anomaly Detection with
RGB-D Data [1.861332908680942]
3次元点雲とRGB画像に基づくマルチモーダル産業異常検出が出現し始めている。
上記の方法は、より長い推論時間と高いメモリ使用量を必要とするため、業界におけるリアルタイムな要求を満たすことはできない。
本稿では、RGB-D入力に基づく軽量な二重分岐再構成ネットワークを提案し、通常例と異常例の判定境界を学習する。
論文 参考訳(メタデータ) (2023-11-12T10:19:14Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。