論文の概要: MICINet: Multi-Level Inter-Class Confusing Information Removal for Reliable Multimodal Classification
- arxiv url: http://arxiv.org/abs/2502.19674v1
- Date: Thu, 27 Feb 2025 01:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:51.328439
- Title: MICINet: Multi-Level Inter-Class Confusing Information Removal for Reliable Multimodal Classification
- Title(参考訳): MICINet:信頼性の高いマルチモーダル分類のための多レベルクラス間情報除去
- Authors: Tong Zhang, Shu Shen, C. L. Philip Chen,
- Abstract要約: また,Multi-Level Inter-Class Confusing Information removal Network (MICINet) と呼ばれるマルチモーダル分類手法を提案する。
MICINetは、これらのノイズをクラス間統合情報(textitICI)の概念に統合し、グローバルレベルと個人レベルのノイズを除去することで、信頼性の高いノイズ除去を実現している。
4つのデータセットの実験により、MICINetは様々なノイズ条件下で、他の最先端の信頼性の高いマルチモーダル分類方法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 57.08108545219043
- License:
- Abstract: Reliable multimodal learning in the presence of noisy data is a widely concerned issue, especially in safety-critical applications. Many reliable multimodal methods delve into addressing modality-specific or cross-modality noise. However, they fail to handle the coexistence of both types of noise efficiently. Moreover, the lack of comprehensive consideration for noise at both global and individual levels limits their reliability. To address these issues, a reliable multimodal classification method dubbed Multi-Level Inter-Class Confusing Information Removal Network (MICINet) is proposed. MICINet achieves the reliable removal of both types of noise by unifying them into the concept of Inter-class Confusing Information (\textit{ICI}) and eliminating it at both global and individual levels. Specifically, MICINet first reliably learns the global \textit{ICI} distribution through the proposed \textbf{\textit{Global \textbf{ICI} Learning Module}}. Then, it introduces the \textbf{\textit{Global-guided Sample ICI Learning module}} to efficiently remove global-level \textit{ICI} from sample features utilizing the learned global \textit{ICI} distribution. Subsequently, the \textbf{\textit{Sample-adaptive Cross-modality Information Compensation module}} is designed to remove individual-level \textit{ICI} from each sample reliably. This is achieved through interpretable cross-modality information compensation based on the complementary relationship between discriminative features and \textit{ICI} and the perception of the relative quality of modalities introduced by the relative discriminative power. Experiments on four datasets demonstrate that MICINet outperforms other state-of-the-art reliable multimodal classification methods under various noise conditions.
- Abstract(参考訳): ノイズの多いデータの存在下での信頼性の高いマルチモーダル学習は、特に安全クリティカルなアプリケーションにおいて、広く懸念されている問題である。
多くの信頼性のあるマルチモーダル法は、モーダリティ固有のノイズやクロスモーダリティノイズに対処する。
しかし、両種類のノイズの共存を効率的に扱えない。
さらに、グローバルレベルと個人レベルのノイズに対する包括的考慮の欠如は、信頼性を制限している。
これらの課題に対処するために,MICINet(Multi-Level Inter-Class Confusing Information removal Network)と呼ばれる信頼性の高いマルチモーダル分類手法を提案する。
MICINetは、これらをクラス間統合情報(\textit{ICI})の概念に統合し、グローバルレベルと個別レベルの両方でノイズを除去することで、両方のノイズを確実に除去する。
具体的には、MICINet はまず、提案した \textbf{\textit{Global \textbf{ICI} Learning Module}} を通じて、グローバルな \textit{ICI} 分布を確実に学習する。
次に、学習したグローバルな \textit{ICI} 分布を利用したサンプル機能から、グローバルレベルの \textit{ICI} を効率的に除去するために、 \textbf{\textit{Global-guided Sample ICI Learning Module}} を導入する。
その後、各サンプルから個々のレベルの \textit{ICI} を確実に除去するよう設計されている。
これは、識別的特徴と \textit{ICI} の相補的関係と、相対的識別的力によってもたらされるモダリティの相対的品質の知覚に基づいて、解釈可能な相互モダリティ情報補償によって達成される。
4つのデータセットの実験により、MICINetは様々なノイズ条件下で、他の最先端の信頼性の高いマルチモーダル分類方法よりも優れていることが示された。
関連論文リスト
- QADM-Net: Multi-Level Quality-Adaptive Dynamic Network for Reliable Multimodal Classification [57.08108545219043]
現在のマルチモーダル分類法では、信頼性の高い推論を実現するために、サンプル固有の深さとパラメータの動的ネットワークが欠如している。
マルチレベル品質適応型動的マルチモーダルネットワーク(QADM-Net)を提案する。
4つのデータセットで行った実験により、QADM-Netは分類性能と信頼性において最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-19T03:26:51Z) - CDIMC-net: Cognitive Deep Incomplete Multi-view Clustering Network [53.72046586512026]
我々は,認知的深層不完全多視点クラスタリングネットワーク(CDIMC-net)という,新しい不完全多視点クラスタリングネットワークを提案する。
ビュー固有のディープエンコーダとグラフ埋め込み戦略をフレームワークに組み込むことで、各ビューの高レベルな特徴とローカル構造をキャプチャする。
人間の認知、すなわち、簡単からハードに学ぶことに基づいて、モデルトレーニングのための最も自信あるサンプルを選択するための自己評価戦略を導入する。
論文 参考訳(メタデータ) (2024-03-28T15:45:03Z) - A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels [22.2715520667186]
クロスモーダル検索(CMR)は、異なるモーダル間の相互作用を確立することを目的としている。
本研究は,ロバスト・クロスモーダル検索のための最適輸送(OT)に基づく統一フレームワークであるUTT-RCLを提案する。
広範に使用されている3つのクロスモーダル検索データセットの実験は、我々のOT-RCLが最先端のアプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-03-20T10:34:40Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations [27.855467591358018]
マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
論文 参考訳(メタデータ) (2022-10-31T16:14:18Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Which is Making the Contribution: Modulating Unimodal and Cross-modal
Dynamics for Multimodal Sentiment Analysis [18.833050804875032]
マルチモーダル感情分析(MSA)は、マルチモーダルデータの利用により注目される。
最近のMSAは、主にクロスモーダル力学の学習に重点を置いているが、ユニモーダルネットワークの最適解を探すことは無視されている。
MSAフレームワーク textbfModulation textbfModel for textbfMultimodal textbfSentiment textbfAnalysisを提案する。
論文 参考訳(メタデータ) (2021-11-10T03:29:17Z) - Seeking the Shape of Sound: An Adaptive Framework for Learning
Voice-Face Association [94.7030305679589]
上記の課題を共同で解決するための新しい枠組みを提案します。
我々はモダリティアライメントプロセスにグローバル損失を導入する。
提案メソッドは、複数の設定で以前の方法よりも優れています。
論文 参考訳(メタデータ) (2021-03-12T14:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。