論文の概要: Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective
- arxiv url: http://arxiv.org/abs/2603.02629v1
- Date: Tue, 03 Mar 2026 05:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.657477
- Title: Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective
- Title(参考訳): インフォメーション・ボトルネックの観点からのマルチモーダルデノイングを増進したインクリメンタル・マルチモーダル異常検出に向けて
- Authors: Kaifang Long, Lianbo Ma, Jiaqi Liu, Liming Liu, Guoyang Xie,
- Abstract要約: 我々は,Mambaデコーダと情報ボトルネック融合モジュールの相補的利点を利用する,IB-iumADと呼ばれる新しいデノナイズフレームワークを導入する。
MVTec 3D-ADとEyecandiesのデータセットに関する一連の理論的分析と実験は、IB-iumADの有効性と競争性能を示している。
- 参考スコア(独自算出の注目度): 15.313681588364242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quest for incremental unified multimodal anomaly detection seeks to empower a single model with the ability to systematically detect anomalies across all categories and support incremental learning to accommodate emerging objects/categories. Central to this pursuit is resolving the catastrophic forgetting dilemma, which involves acquiring new knowledge while preserving prior learned knowledge. Despite some efforts to address this dilemma, a key oversight persists: ignoring the potential impact of spurious and redundant features on catastrophic forgetting. In this paper, we delve into the negative effect of spurious and redundant features on this dilemma in incremental unified frameworks, and reveal that under similar conditions, the multimodal framework developed by naive aggregation of unimodal architectures is more prone to forgetting. To address this issue, we introduce a novel denoising framework called IB-IUMAD, which exploits the complementary benefits of the Mamba decoder and information bottleneck fusion module: the former dedicated to disentangle inter-object feature coupling, preventing spurious feature interference between objects; the latter serves to filter out redundant features from the fused features, thus explicitly preserving discriminative information. A series of theoretical analyses and experiments on MVTec 3D-AD and Eyecandies datasets demonstrates the effectiveness and competitive performance of IB-IUMAD.
- Abstract(参考訳): インクリメンタルな統合マルチモーダル異常検出の探求は、すべてのカテゴリにまたがる異常を体系的に検出し、新たなオブジェクトやカテゴリに対応するためのインクリメンタル学習をサポートする能力を備えた単一のモデルを強化することを目指している。
この追求の中心は破滅的な忘れジレンマを解消することであり、これは事前の知識を維持しながら新しい知識を取得することである。
このジレンマに対処する努力はいくつかあるが、重要な監視は、破滅的な忘れ物に対する刺激的かつ冗長な特徴の潜在的影響を無視することである。
本稿では, 漸進的統合フレームワークにおけるこのジレンマに対して, 突発的かつ冗長な特徴が負の効果に与える影響を考察し, 同様の条件下では, 単調なアーキテクチャを内在的に集約することによって開発されたマルチモーダル・フレームワークは, 忘れがちであることを示す。
この問題に対処するために,我々は,Mambaデコーダと情報ボトルネック融合モジュールの相補的な利点を利用する新しいデノナイズフレームワークIB-iumADを導入する。前者はオブジェクト間のオブジェクト間の特徴結合を解消し,オブジェクト間の突発的な特徴干渉を防止することを目的としており,後者は融合した特徴から冗長な特徴をフィルタリングし,識別情報を明示的に保存することを目的としている。
MVTec 3D-ADとEyecandiesのデータセットに関する一連の理論的分析と実験は、IB-iumADの有効性と競争性能を示している。
関連論文リスト
- ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - UGG-ReID: Uncertainty-Guided Graph Model for Multi-Modal Object Re-Identification [26.770271366177603]
マルチモーダルオブジェクトReID(UGG-ReID)に対する不確実性誘導グラフモデルというロバストなアプローチを提案する。
UGG-ReIDは、ノイズ干渉を緩和し、効果的なマルチモーダル融合を促進するように設計されている。
実験結果から,提案手法は全データセットに対して優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-07-07T03:41:08Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object
Tracking [38.36872739816151]
検出器内のOAA(Occlusion-Aware Attention)モジュールは、隠蔽された背景領域を抑えながらオブジェクトの特徴を強調する。
OAAは、隠蔽される可能性のある物体の検出器を強化する変調器として機能する。
最適輸送問題に基づくRe-ID埋め込みマッチングブロックを設計する。
論文 参考訳(メタデータ) (2023-08-30T06:56:53Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Unsupervised Discovery, Control, and Disentanglement of Semantic
Attributes with Applications to Anomaly Detection [15.817227809141116]
画像の意味的属性を制御する潜在因子を検出する教師なし生成表現に着目する。
a)マルチスケール生成モデルと相互情報(MI)を組み合わせたネットワークアーキテクチャを提案する。
b) について、解析的結果(Lemma 1) を導出し、2つの関連する異なる概念に明瞭さをもたらす。
論文 参考訳(メタデータ) (2020-02-25T20:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。