論文の概要: Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark
- arxiv url: http://arxiv.org/abs/2410.01737v2
- Date: Mon, 27 Oct 2025 08:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.218751
- Title: Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark
- Title(参考訳): ロバストなモダリティ不完全な異常検出:ベンチマークによるモダリティ命令型フレームワーク
- Authors: Bingchen Miao, Wenqiao Zhang, Juncheng Li, Wangyu Wu, Siliang Tang, Zhaocheng Li, Haochen Shi, Jun Xiao, Yueting Zhuang,
- Abstract要約: モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
- 参考スコア(独自算出の注目度): 69.02666229531322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Industrial Anomaly Detection (MIAD), which utilizes 3D point clouds and 2D RGB images to identify abnormal regions in products, plays a crucial role in industrial quality inspection. However, traditional MIAD settings assume that all 2D and 3D modalities are paired, ignoring the fact that multimodal data collected from the real world is often imperfect due to missing modalities. Additionally, models trained on modality-incomplete data are prone to overfitting. Therefore, MIAD models that demonstrate robustness against modality-incomplete data are highly desirable in practice. To address this, we introduce a pioneering study that comprehensively investigates Modality-Incomplete Industrial Anomaly Detection (MIIAD), and under the guidance of experts, we construct the MIIAD Bench with rich modality-missing settings to account for imperfect learning environments with incomplete multimodal information. As expected, we find that most existing MIAD methods perform poorly on the MIIAD Bench, leading to significant performance degradation. To tackle this challenge, we propose a novel two-stage Robust modAlity-aware fusing and Detecting framewoRk, abbreviated as RADAR. Specifically: i) We propose Modality-incomplete Instruction to guide the multimodal Transformer to robustly adapt to various modality-incomplete scenarios, and implement adaptive parameter learning based on HyperNetwork. ii) Then, we construct a Double-Pseudo Hybrid Module to highlight the uniqueness of modality combinations, mitigating overfitting issues and further enhancing the robustness of the MIIAD model. Our experimental results demonstrate that the proposed RADAR significantly outperforms traditional MIAD methods on our newly created MIIAD dataset, proving its practical application value.
- Abstract(参考訳): 3次元点雲と2次元RGB画像を用いて製品中の異常領域を識別するマルチモーダル産業異常検出(MIAD)は,産業品質検査において重要な役割を担っている。
しかし、従来のMIAD設定では、すべての2Dと3Dのモダリティがペアリングされていると仮定しており、実世界から収集されたマルチモーダルデータが欠落したモダリティのためにしばしば不完全であるという事実を無視している。
さらに、モダリティ不完全データに基づいてトレーニングされたモデルは、過度に適合する傾向にある。
したがって、モダリティ不完全データに対するロバスト性を示すMIADモデルは、実際は非常に望ましい。
そこで,本研究では,MIIAD(Modality-Incomplete Industrial Anomaly Detection)を包括的に研究する先駆的な研究を紹介する。
予想通り、既存のMIAD手法はMIIADベンチでは性能が悪く、性能が著しく低下する。
この課題に対処するために、新しい2段階のロバスト・モードアリティ・アウェア・フュージングと検出フレームwoRk(RADAR)を提案する。
具体的には
i)Modality-incomplete Instruction to guide the multimodal Transformer to robustly adapt to various modality-incomplete scenarios, and implementaptive parameter learning based on HyperNetwork。
二 二重擬似ハイブリッドモジュールを構築し、モダリティの組み合わせの独特さを強調し、過度に適合する問題を緩和し、さらにMIIADモデルの堅牢性を高める。
実験の結果,提案したRADARは,新たに作成したMIIADデータセットにおいて従来のMIAD手法よりも大幅に優れており,実用的価値が証明されている。
関連論文リスト
- Feature Fusion and Knowledge-Distilled Multi-Modal Multi-Target Detection [2.295863158976069]
マルチモーダルMTDのための機能融合および知識蒸留フレームワークを提案する。
後続確率最適化タスクとしてこの問題を定式化し,多段階学習パイプラインを用いて解決する。
実験の結果,教師モデルの平均平均精度の約95%を学生モデルが達成していることがわかった。
論文 参考訳(メタデータ) (2025-05-31T03:11:44Z) - Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - Rethinking Multi-modal Object Detection from the Perspective of Mono-Modality Feature Learning [18.268054258939213]
我々は,マルチモーダル検出器に線形探索評価を導入し,マルチモーダル物体検出タスクを再考する。
M$2$D-LIFという,モノモダリティ蒸留(M$2$D)法と局所照明対応核融合(LIF)モジュールからなる新しいフレームワークを構築した。
我々のM$2$D-LIFは、Fusion Degradation現象を効果的に軽減し、以前のSOTA検出器より優れている。
論文 参考訳(メタデータ) (2025-03-14T18:15:53Z) - Modality-Invariant Bidirectional Temporal Representation Distillation Network for Missing Multimodal Sentiment Analysis [6.15602203132432]
モダリティ不変な双方向時間表現蒸留ネットワーク(MITR-DNet)を導入する。
MITR-DNetは蒸留方式を採用しており、完全なモダリティの教師モデルは、モダリティの学生モデルが欠けていることをガイドし、モダリティの欠如の有無で堅牢性を確保する。
論文 参考訳(メタデータ) (2025-01-07T07:57:16Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - CANAMRF: An Attention-Based Model for Multimodal Depression Detection [7.266707571724883]
適応型マルチモーダルリカレントフュージョン(CANAMRF)を用いたマルチモーダル抑うつ検出のためのクロスモーダルアテンションネットワークを提案する。
CANAMRFは、マルチモーダル特徴抽出器、アダプティブマルチモーダルリカレントフュージョンモジュール、ハイブリッドアテンションモジュールによって構成されている。
論文 参考訳(メタデータ) (2024-01-04T12:08:16Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Generative-based Fusion Mechanism for Multi-Modal Tracking [35.77340348091937]
CGAN(Con Conditional Generative Adversarial Networks)とDM(Diffusion Models)を導入する。
我々はこれらのマルチモーダルな特徴をGMフレームワークでランダムノイズで条件付けし、元のトレーニングサンプルをより難しいインスタンスに効果的に変換する。
この設計は特徴から識別的手がかりを抽出し、究極の追跡性能を向上させる。
論文 参考訳(メタデータ) (2023-09-04T17:22:10Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。