論文の概要: Mentor3AD: Feature Reconstruction-based 3D Anomaly Detection via Multi-modality Mentor Learning
- arxiv url: http://arxiv.org/abs/2505.21420v1
- Date: Tue, 27 May 2025 16:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.810034
- Title: Mentor3AD: Feature Reconstruction-based 3D Anomaly Detection via Multi-modality Mentor Learning
- Title(参考訳): Mentor3AD:多モードメンタラーニングによる特徴再構成に基づく3次元異常検出
- Authors: Jinbao Wang, Hanzhe Liang, Can Gao, Chenxi Hu, Jie Zhou, Yunkang Cao, Linlin Shen, Weiming Shen,
- Abstract要約: マルチモーダル・メンタラーニングを利用したMentor3ADという新しい手法を提案する。
具体的には、Mentor3ADには、RGBと3Dモダリティから抽出された特徴をマージするMentor of Fusion Module (MFM)が含まれている。
最後に、最終的な異常スコアをより正確に生成するための投票モジュール(VM)を導入する。
- 参考スコア(独自算出の注目度): 44.139281670666385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal feature reconstruction is a promising approach for 3D anomaly detection, leveraging the complementary information from dual modalities. We further advance this paradigm by utilizing multi-modal mentor learning, which fuses intermediate features to further distinguish normal from feature differences. To address these challenges, we propose a novel method called Mentor3AD, which utilizes multi-modal mentor learning. By leveraging the shared features of different modalities, Mentor3AD can extract more effective features and guide feature reconstruction, ultimately improving detection performance. Specifically, Mentor3AD includes a Mentor of Fusion Module (MFM) that merges features extracted from RGB and 3D modalities to create a mentor feature. Additionally, we have designed a Mentor of Guidance Module (MGM) to facilitate cross-modal reconstruction, supported by the mentor feature. Lastly, we introduce a Voting Module (VM) to more accurately generate the final anomaly score. Extensive comparative and ablation studies on MVTec 3D-AD and Eyecandies have verified the effectiveness of the proposed method.
- Abstract(参考訳): マルチモーダル特徴再構成は、3次元異常検出において有望なアプローチであり、二重モードからの相補的情報を活用する。
マルチモーダル・メンター・ラーニングを利用して、中間的特徴を融合させ、通常の特徴と特徴の相違をさらに区別することで、このパラダイムをさらに前進させる。
これらの課題に対処するために,マルチモーダル・メンタラーニングを利用したMentor3ADという新しい手法を提案する。
異なるモダリティの共有機能を活用することで、Mentor3ADはより効果的な特徴を抽出し、機能再構築をガイドし、最終的に検出性能を向上させることができる。
具体的には、Mentor3ADにはMentor of Fusion Module (MFM)が含まれており、RGBと3Dモダリティから抽出した機能をマージしてメンター機能を作成する。
さらに,メンタ機能によって支援されるクロスモーダルな再構築を容易にするメンタ・オブ・ガイダンス・モジュール (MGM) を設計した。
最後に、最終的な異常スコアをより正確に生成するための投票モジュール(VM)を導入する。
MVTec 3D-ADとEyecandiesの大規模な比較およびアブレーション研究により,提案手法の有効性が検証された。
関連論文リスト
- GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object Detection [36.37236815038332]
GAFusion と呼ばれる,LiDAR による大域的相互作用と適応融合を備えた新しい多モード3Dオブジェクト検出法を提案する。
GAFusionは73.6$%$mAPと74.9$%$NDSで最先端の3Dオブジェクト検出結果を達成する。
論文 参考訳(メタデータ) (2024-11-01T03:40:24Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Long-Tailed 3D Detection via Multi-Modal Fusion [47.03801888003686]
本研究では,Long-Tailed 3D Detection (LT3D) の問題点について検討した。
単モードLiDARとRGB検出器を独立に訓練した多モード遅延核融合(MMLF)により,レアクラスの精度が特に向上することが指摘されている。
提案するMMLFアプローチは,従来の作業よりもLT3Dの性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-18T07:14:25Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level
Gradient Calibration [89.4165092674947]
マルチモダリティ融合とマルチタスク学習は、3D自動運転シナリオにおいてトレンドになりつつある。
先行研究は、学習フレームワークを経験的な知識で手作業で調整し、それがサブオプティマに繋がる可能性がある。
そこで本稿では,最適化中のタスクやモダリティにまたがる,シンプルなマルチレベル勾配校正学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T12:50:15Z) - MMDR: A Result Feature Fusion Object Detection Approach for Autonomous
System [5.499393552545591]
提案手法は,MMDR (Multi-Modal Detector based based Result features) と呼ばれ,2次元と3次元の両方のオブジェクト検出タスクで動作するように設計されている。
MMDRモデルは、機能融合の段階で、浅いグローバルな特徴を取り入れ、背景情報を知覚する能力を持つモデルを提供する。
論文 参考訳(メタデータ) (2023-04-19T12:28:42Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。