論文の概要: Multimodal Industrial Anomaly Detection by Crossmodal Reverse Distillation
- arxiv url: http://arxiv.org/abs/2412.08949v1
- Date: Thu, 12 Dec 2024 05:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:42.051214
- Title: Multimodal Industrial Anomaly Detection by Crossmodal Reverse Distillation
- Title(参考訳): クロスモーダル逆蒸留によるマルチモーダル産業異常検出
- Authors: Xinyue Liu, Jianyuan Wang, Biao Leng, Shuo Zhang,
- Abstract要約: マルチブランチ設計に基づくクロスモーダル逆蒸留(CRD)を提案する。
独立分岐を各モードに割り当てることで、各モード内の異常をより細かく検出することができる。
本手法は,マルチモーダル異常検出および局所化における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 15.89869857998053
- License:
- Abstract: Knowledge distillation (KD) has been widely studied in unsupervised Industrial Image Anomaly Detection (AD), but its application to unsupervised multimodal AD remains underexplored. Existing KD-based methods for multimodal AD that use fused multimodal features to obtain teacher representations face challenges. Anomalies in one modality may not be effectively captured in the fused teacher features, leading to detection failures. Besides, these methods do not fully leverage the rich intra- and inter-modality information. In this paper, we propose Crossmodal Reverse Distillation (CRD) based on Multi-branch design to realize Multimodal Industrial AD. By assigning independent branches to each modality, our method enables finer detection of anomalies within each modality. Furthermore, we enhance the interaction between modalities during the distillation process by designing Crossmodal Filter and Amplifier. With the idea of crossmodal mapping, the student network is allowed to better learn normal features while anomalies in all modalities are ensured to be effectively detected. Experimental verifications on the MVTec 3D-AD dataset demonstrate that our method achieves state-of-the-art performance in multimodal anomaly detection and localization.
- Abstract(参考訳): 知識蒸留 (KD) は, 産業用画像異常検出 (AD) において広く研究されているが, 教師なしマルチモーダルADへの応用はいまだ検討されていない。
KD-based method for multimodal AD that using fused multimodal features to obtain teacher representations faces。
1つのモダリティの異常は、融合した教師の特徴において効果的に捉えられず、検出の失敗につながる。
さらに、これらの手法は、豊富なモダリティ内およびモダリティ間情報を十分に活用していない。
本稿では,多分岐設計に基づくクロスモーダル逆蒸留(CRD)を提案する。
独立分岐を各モードに割り当てることで、各モード内の異常をより細かく検出することができる。
さらに,クロスモーダルフィルタと増幅器を設計することにより,蒸留工程におけるモダリティ間の相互作用を高める。
クロスモーダルマッピングの考え方により、学生ネットワークは通常の特徴をよりよく学習でき、全てのモダリティの異常が効果的に検出されることが保証される。
MVTec 3D-ADデータセットの実験的検証により,本手法がマルチモーダル異常検出および局所化における最先端性能を実現することを示す。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation [0.0]
3次元点雲とRGB画像に基づくマルチモーダル産業異常検出(IAD)は現在も進行中である。
既存の品質制御プロセスは、光学および赤外線イメージングのような高速なインライン検査と高解像度だが時間を要するニアラインキャラクタリゼーション技術を組み合わせている。
IADのためのクロスモーダル蒸留フレームワークであるCMDIADを提案する。
論文 参考訳(メタデータ) (2024-05-22T12:08:56Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - Decoupled Multimodal Distilling for Emotion Recognition [21.685394946415993]
本稿では, フレキシブルかつ適応的なクロスモーダルな知識蒸留を容易にするデカップリング型マルチモーダル蒸留(DMD)手法を提案する。
各モダリティの表現は、自己回帰的な方法で、モダリティ非関係/排他的空間(modality-irrelevant/exclusive space)という2つの部分に分けられる。
実験結果からDMDは最先端のMER法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-03-24T04:54:44Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。