論文の概要: RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2410.01737v1
- Date: Wed, 2 Oct 2024 16:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:43:48.617466
- Title: RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection
- Title(参考訳): RADAR:ロバストな2段階モード不完全産業異常検出
- Authors: Bingchen Miao, Wenqiao Zhang, Juncheng Li, Siliang Tang, Zhaocheng Li, Haochen Shi, Jun Xiao, Yueting Zhuang,
- Abstract要約: 本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
- 参考スコア(独自算出の注目度): 61.71770293720491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Industrial Anomaly Detection (MIAD), utilizing 3D point clouds and 2D RGB images to identify the abnormal region of products, plays a crucial role in industrial quality inspection. However, the conventional MIAD setting presupposes that all 2D and 3D modalities are paired, overlooking the fact that multimodal data collected from the real world is often imperfect due to missing modalities. Consequently, MIAD models that demonstrate robustness against modal-incomplete data are highly desirable in practice. To address this practical challenge, we introduce a first-of-its-kind study that comprehensively investigates Modality-Incomplete Industrial Anomaly Detection (MIIAD), to consider the imperfect learning environment in which the multimodal information may be incomplete. Not surprisingly, we discovered that most existing MIAD approaches are inadequate for addressing MIIAD challenges, leading to significant performance degradation on the MIIAD benchmark we developed. In this paper, we propose a novel two-stage Robust modAlity-imcomplete fusing and Detecting frAmewoRk, abbreviated as RADAR. Our bootstrapping philosophy is to enhance two stages in MIIAD, improving the robustness of the Multimodal Transformer: i) In feature fusion, we first explore learning modality-incomplete instruction, guiding the pre-trained Multimodal Transformer to robustly adapt to various modality-incomplete scenarios, and implement adaptive parameter learning based on a HyperNetwork; ii) In anomaly detection, we construct a real-pseudo hybrid module to highlight the distinctiveness of modality combinations, further enhancing the robustness of the MIIAD model. Our experimental results demonstrate that the proposed RADAR significantly surpasses conventional MIAD methods in terms of effectiveness and robustness on our newly created MIIAD dataset, underscoring its practical application value.
- Abstract(参考訳): 3次元点雲と2次元RGB画像を用いて製品の異常領域を識別するマルチモーダル産業異常検出(MIAD)は,産業品質検査において重要な役割を担っている。
しかし、従来のMIAD設定では、すべての2次元と3次元のモダリティがペアリングされることを前提としており、実世界から収集されたマルチモーダルデータが欠落したモダリティのためにしばしば不完全であるという事実を見越す。
その結果、モーダル不完全データに対するロバスト性を示すMIADモデルは、実際は非常に望ましい。
この実践的課題に対処するため,本研究では,マルチモーダル情報が不完全である可能性のある不完全な学習環境を検討するために,Modality-Incomplete Industrial Anomaly Detection (MIIAD) を包括的に調査する,第一種研究を紹介する。
当然のことながら、既存のMIADアプローチがMIIADの課題に対処するには不十分であることに気づきました。
本稿では,2段階のロバスト・モードアリティ不完全融合とFramewoRk検出(RADAR)を提案する。
我々のブートストラッピング哲学は、MIIADの2つの段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
一 機能融合において、まず、学習モダリティ不完全命令を探求し、事前学習したマルチモーダルトランスフォーマーを、様々なモダリティ不完全シナリオに頑健に適応させ、ハイパーネットワークに基づく適応パラメータ学習を実装する。
二 異常検出において、実擬似ハイブリッドモジュールを構築し、モダリティの組み合わせの特異性を強調し、さらにMIIADモデルの堅牢性を高める。
実験の結果,提案したRADARは従来のMIAD法をはるかに上回り,MIIADデータセットの有効性とロバスト性を実証した。
関連論文リスト
- AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - CANAMRF: An Attention-Based Model for Multimodal Depression Detection [7.266707571724883]
適応型マルチモーダルリカレントフュージョン(CANAMRF)を用いたマルチモーダル抑うつ検出のためのクロスモーダルアテンションネットワークを提案する。
CANAMRFは、マルチモーダル特徴抽出器、アダプティブマルチモーダルリカレントフュージョンモジュール、ハイブリッドアテンションモジュールによって構成されている。
論文 参考訳(メタデータ) (2024-01-04T12:08:16Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Generative-based Fusion Mechanism for Multi-Modal Tracking [35.77340348091937]
CGAN(Con Conditional Generative Adversarial Networks)とDM(Diffusion Models)を導入する。
我々はこれらのマルチモーダルな特徴をGMフレームワークでランダムノイズで条件付けし、元のトレーニングサンプルをより難しいインスタンスに効果的に変換する。
この設計は特徴から識別的手がかりを抽出し、究極の追跡性能を向上させる。
論文 参考訳(メタデータ) (2023-09-04T17:22:10Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。