論文の概要: UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression
- arxiv url: http://arxiv.org/abs/2509.25934v1
- Date: Tue, 30 Sep 2025 08:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.067347
- Title: UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression
- Title(参考訳): UniMMAD: MoE-Driven Feature Decompression によるマルチモーダル・マルチクラス異常検出
- Authors: Yuan Zhao, Youwei Pang, Lihe Zhang, Hanqi Liu, Jiaming Zuo, Huchuan Lu, Xiaoqi Zhao,
- Abstract要約: UniMMADは、マルチモーダルおよびマルチクラスの異常検出のための統一されたフレームワークである。
UniMMADは、9つの異常検出データセット上で、3つのフィールド、12のモダリティ、66のクラスにまたがる最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 74.0893986012049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing anomaly detection (AD) methods often treat the modality and class as independent factors. Although this paradigm has enriched the development of AD research branches and produced many specialized models, it has also led to fragmented solutions and excessive memory overhead. Moreover, reconstruction-based multi-class approaches typically rely on shared decoding paths, which struggle to handle large variations across domains, resulting in distorted normality boundaries, domain interference, and high false alarm rates. To address these limitations, we propose UniMMAD, a unified framework for multi-modal and multi-class anomaly detection. At the core of UniMMAD is a Mixture-of-Experts (MoE)-driven feature decompression mechanism, which enables adaptive and disentangled reconstruction tailored to specific domains. This process is guided by a ``general to specific'' paradigm. In the encoding stage, multi-modal inputs of varying combinations are compressed into compact, general-purpose features. The encoder incorporates a feature compression module to suppress latent anomalies, encourage cross-modal interaction, and avoid shortcut learning. In the decoding stage, the general features are decompressed into modality-specific and class-specific forms via a sparsely-gated cross MoE, which dynamically selects expert pathways based on input modality and class. To further improve efficiency, we design a grouped dynamic filtering mechanism and a MoE-in-MoE structure, reducing parameter usage by 75\% while maintaining sparse activation and fast inference. UniMMAD achieves state-of-the-art performance on 9 anomaly detection datasets, spanning 3 fields, 12 modalities, and 66 classes. The source code will be available at https://github.com/yuanzhao-CVLAB/UniMMAD.
- Abstract(参考訳): 既存の異常検出 (AD) 法は、しばしばモーダリティとクラスを独立した要因として扱う。
このパラダイムはAD研究部門の発展を豊かにし、多くの専門モデルを生み出したが、断片化されたソリューションと過剰なメモリオーバーヘッドにつながった。
さらに、再構成ベースのマルチクラスアプローチは、一般的に、ドメイン間の大きなバリエーションを扱うのに苦労する共有デコードパスに依存し、歪んだ正規性境界、ドメイン干渉、高い偽アラームレートをもたらす。
これらの制約に対処するため,マルチモーダルおよびマルチクラス異常検出のための統合フレームワークUniMMADを提案する。
UniMMADのコアとなるのは、Mixture-of-Experts(MoE)駆動のフィーチャ圧縮機構で、特定のドメインに合わせて調整された適応的かつアンタングル化された再構築を可能にする。
このプロセスは ``General to specific'' パラダイムで導かれる。
符号化段階では、様々な組み合わせのマルチモーダル入力をコンパクトで汎用的な特徴に圧縮する。
エンコーダには機能圧縮モジュールが組み込まれており、潜伏異常を抑え、モーダル間相互作用を奨励し、ショートカット学習を避ける。
復号段階において、一般的な特徴は、入力モダリティとクラスに基づいて専門家経路を動的に選択するスパースゲートのクロスMoEを介して、モダリティ特化およびクラス特化形式に分解される。
さらに効率を向上させるために,グループ化動的フィルタリング機構とMoE-in-MoE構造を設計し,疎活性化と高速推論を維持しながらパラメータ使用率を75%削減した。
UniMMADは、9つの異常検出データセット上で、3つのフィールド、12のモダリティ、66のクラスにまたがる最先端のパフォーマンスを達成する。
ソースコードはhttps://github.com/yuanzhao-CVLAB/UniMMADで入手できる。
関連論文リスト
- UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文 参考訳(メタデータ) (2025-05-26T10:49:44Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - AMAD: AutoMasked Attention for Unsupervised Multivariate Time Series Anomaly Detection [0.7371521417300614]
AMADはUMTStextbfADシナリオに対するtextbfAutotextbfMasked Attentionを統合している。
AMADはUMTSADの課題に対して堅牢で適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-09T07:32:59Z) - DeMo: Decoupled Feature-Based Mixture of Experts for Multi-Modal Object Re-Identification [25.781336502845395]
マルチモーダルオブジェクトReIDentificationは、複数のモーダルから補完情報を組み合わせることで、特定のオブジェクトを検索することを目的としている。
本稿では,マルチモーダルオブジェクトReIDのためのDeMoと呼ばれる新しい特徴学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-14T02:36:56Z) - Attend, Distill, Detect: Attention-aware Entropy Distillation for Anomaly Detection [4.0679780034913335]
知識蒸留に基づくマルチクラスの異常検出では、低レイテンシで十分なパフォーマンスが期待できるが、1クラスのバージョンに比べて大幅に低下する。
教師と学生のネットワーク間の蒸留プロセスを改善するDCAM(Distributed Convolutional Attention Module)を提案する。
論文 参考訳(メタデータ) (2024-05-10T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。