論文の概要: Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations
- arxiv url: http://arxiv.org/abs/2210.17444v1
- Date: Mon, 31 Oct 2022 16:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:29:28.428281
- Title: Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations
- Title(参考訳): マルチモーダル情報ボトルネック:最小限のユニモーダル表現とマルチモーダル表現の学習
- Authors: Sijie Mai, Ying Zeng, Haifeng Hu
- Abstract要約: マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
- 参考スコア(独自算出の注目度): 27.855467591358018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning effective joint embedding for cross-modal data has always been a
focus in the field of multimodal machine learning. We argue that during
multimodal fusion, the generated multimodal embedding may be redundant, and the
discriminative unimodal information may be ignored, which often interferes with
accurate prediction and leads to a higher risk of overfitting. Moreover,
unimodal representations also contain noisy information that negatively
influences the learning of cross-modal dynamics. To this end, we introduce the
multimodal information bottleneck (MIB), aiming to learn a powerful and
sufficient multimodal representation that is free of redundancy and to filter
out noisy information in unimodal representations. Specifically, inheriting
from the general information bottleneck (IB), MIB aims to learn the minimal
sufficient representation for a given task by maximizing the mutual information
between the representation and the target and simultaneously constraining the
mutual information between the representation and the input data. Different
from general IB, our MIB regularizes both the multimodal and unimodal
representations, which is a comprehensive and flexible framework that is
compatible with any fusion methods. We develop three MIB variants, namely,
early-fusion MIB, late-fusion MIB, and complete MIB, to focus on different
perspectives of information constraints. Experimental results suggest that the
proposed method reaches state-of-the-art performance on the tasks of multimodal
sentiment analysis and multimodal emotion recognition across three widely used
datasets. The codes are available at
\url{https://github.com/TmacMai/Multimodal-Information-Bottleneck}.
- Abstract(参考訳): クロスモーダルデータに対する効果的な共同埋め込みの学習は、常にマルチモーダル機械学習の分野に焦点を合わせてきた。
マルチモーダル融合では, 生成したマルチモーダル埋め込みは冗長であり, 識別的ユニモーダル情報は無視され, しばしば正確な予測に干渉し, オーバーフィッティングのリスクが高くなる。
さらに、単項表現は、クロスモーダル力学の学習に悪影響を及ぼすノイズ情報も含んでいる。
そこで本研究では,冗長性のない強力で十分なマルチモーダル表現を学習し,ユニモーダル表現におけるノイズ情報をフィルタリングすることを目的としたマルチモーダル情報ボトルネック(mib)を提案する。
具体的には、一般情報ボトルネック(IB)から受け継いだMIBは、表現と対象の間の相互情報を最大化し、表現と入力データ間の相互情報を同時に制限することにより、与えられたタスクに対する最小限の表現を学習することを目的としている。
一般のIBと異なり、MIBは、どんな融合法とも互換性のある包括的で柔軟なフレームワークであるマルチモーダル表現とユニモーダル表現の両方を正規化しています。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法は3つの広く使用されているデータセットを対象としたマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
コードは \url{https://github.com/tmacmai/multimodal-information-bottleneck} で入手できる。
関連論文リスト
- Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task
Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。
既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。
本研究では,自己教師型学習方式のセルフMIを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:10:36Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Multimodal Representations Learning Based on Mutual Information
Maximization and Minimization and Identity Embedding for Multimodal Sentiment
Analysis [33.73730195500633]
相互情報の最大化とアイデンティティの埋め込みに基づくマルチモーダル表現モデルを提案する。
2つの公開データセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-10T01:41:39Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。