Fugu-MT 論文翻訳(概要): Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal and Multimodal Representations

論文の概要: Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal and Multimodal Representations

arxiv url: http://arxiv.org/abs/2210.17444v1
Date: Mon, 31 Oct 2022 16:14:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-01 18:29:28.428281
Title: Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal and Multimodal Representations
Title（参考訳）: マルチモーダル情報ボトルネック:最小限のユニモーダル表現とマルチモーダル表現の学習
Authors: Sijie Mai, Ying Zeng, Haifeng Hu
Abstract要約: マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
参考スコア（独自算出の注目度）: 27.855467591358018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning effective joint embedding for cross-modal data has always been a focus in the field of multimodal machine learning. We argue that during multimodal fusion, the generated multimodal embedding may be redundant, and the discriminative unimodal information may be ignored, which often interferes with accurate prediction and leads to a higher risk of overfitting. Moreover, unimodal representations also contain noisy information that negatively influences the learning of cross-modal dynamics. To this end, we introduce the multimodal information bottleneck (MIB), aiming to learn a powerful and sufficient multimodal representation that is free of redundancy and to filter out noisy information in unimodal representations. Specifically, inheriting from the general information bottleneck (IB), MIB aims to learn the minimal sufficient representation for a given task by maximizing the mutual information between the representation and the target and simultaneously constraining the mutual information between the representation and the input data. Different from general IB, our MIB regularizes both the multimodal and unimodal representations, which is a comprehensive and flexible framework that is compatible with any fusion methods. We develop three MIB variants, namely, early-fusion MIB, late-fusion MIB, and complete MIB, to focus on different perspectives of information constraints. Experimental results suggest that the proposed method reaches state-of-the-art performance on the tasks of multimodal sentiment analysis and multimodal emotion recognition across three widely used datasets. The codes are available at \url{https://github.com/TmacMai/Multimodal-Information-Bottleneck}.
Abstract（参考訳）: クロスモーダルデータに対する効果的な共同埋め込みの学習は、常にマルチモーダル機械学習の分野に焦点を合わせてきた。マルチモーダル融合では, 生成したマルチモーダル埋め込みは冗長であり, 識別的ユニモーダル情報は無視され, しばしば正確な予測に干渉し, オーバーフィッティングのリスクが高くなる。さらに、単項表現は、クロスモーダル力学の学習に悪影響を及ぼすノイズ情報も含んでいる。そこで本研究では,冗長性のない強力で十分なマルチモーダル表現を学習し,ユニモーダル表現におけるノイズ情報をフィルタリングすることを目的としたマルチモーダル情報ボトルネック(mib)を提案する。具体的には、一般情報ボトルネック(IB)から受け継いだMIBは、表現と対象の間の相互情報を最大化し、表現と入力データ間の相互情報を同時に制限することにより、与えられたタスクに対する最小限の表現を学習することを目的としている。一般のIBと異なり、MIBは、どんな融合法とも互換性のある包括的で柔軟なフレームワークであるマルチモーダル表現とユニモーダル表現の両方を正規化しています。情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。実験結果から,提案手法は3つの広く使用されているデータセットを対象としたマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。コードは \url{https://github.com/tmacmai/multimodal-information-bottleneck} で入手できる。

関連論文リスト

Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。実験では、教師なしマルチビュークラスタリング、ノイズラベル分類、およびクロスモーダルハッシュ検索のためのプラグ・アンド・プレイモジュールとして採用する。
論文参考訳（メタデータ） (2025-03-06T07:01:08Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance [10.580712937465032]
従来無視されていた多モーダル学習目標と単モーダル学習目標との勾配の衝突を同定する。 MMParetoアルゴリズムを提案することで、学習目的に共通する方向の最終的な勾配を確保することができる。また,タスクの難易度に明確な相違点のあるマルチタスクケースも容易に行えることが期待されている。
論文参考訳（メタデータ） (2024-05-28T01:19:13Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。本研究では,自己教師型学習方式のセルフMIを提案する。
論文参考訳（メタデータ） (2023-11-07T08:10:36Z)
Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。 BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文参考訳（メタデータ） (2023-06-29T03:02:20Z)
Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文参考訳（メタデータ） (2023-06-08T15:17:04Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Generalized Product-of-Experts for Learning Multimodal Representations in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文参考訳（メタデータ） (2022-11-07T14:27:38Z)
Multi-Modal Mutual Information Maximization: A Novel Approach for Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文参考訳（メタデータ） (2021-12-13T08:58:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。