論文の概要: Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2109.00412v1
- Date: Wed, 1 Sep 2021 14:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 15:18:56.939286
- Title: Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis
- Title(参考訳): 階層的相互情報最大化によるマルチモーダル融合の改良によるマルチモーダル感性解析
- Authors: Wei Han, Hui Chen, Soujanya Poria
- Abstract要約: 本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
- 参考スコア(独自算出の注目度): 16.32509144501822
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In multimodal sentiment analysis (MSA), the performance of a model highly
depends on the quality of synthesized embeddings. These embeddings are
generated from the upstream process called multimodal fusion, which aims to
extract and combine the input unimodal raw data to produce a richer multimodal
representation. Previous work either back-propagates the task loss or
manipulates the geometric property of feature spaces to produce favorable
fusion results, which neglects the preservation of critical task-related
information that flows from input to the fusion results. In this work, we
propose a framework named MultiModal InfoMax (MMIM), which hierarchically
maximizes the Mutual Information (MI) in unimodal input pairs (inter-modality)
and between multimodal fusion result and unimodal input in order to maintain
task-related information through multimodal fusion. The framework is jointly
trained with the main task (MSA) to improve the performance of the downstream
MSA task. To address the intractable issue of MI bounds, we further formulate a
set of computationally simple parametric and non-parametric methods to
approximate their truth value. Experimental results on the two widely used
datasets demonstrate the efficacy of our approach. The implementation of this
work is publicly available at
https://github.com/declare-lab/Multimodal-Infomax.
- Abstract(参考訳): マルチモーダル感情分析(MSA)では、モデルの性能は合成埋め込みの品質に大きく依存する。
これらの埋め込みはマルチモーダル融合と呼ばれる上流プロセスから生成され、入力された非モーダルな生データを抽出して組み合わせ、よりリッチなマルチモーダル表現を生成することを目的としている。
従来の作業では、タスク損失をバックプロパゲートするか、あるいは特徴空間の幾何学的性質を操作して、良好な融合結果が得られ、入力から融合結果に流れる重要なタスク関連情報の保存を無視する。
本研究では,MultiModal InfoMax (MMIM) というフレームワークを提案する。MultiModal InfoMax (MMIM) は,MultiModal fusion を通じてタスク関連情報を維持するために,Multimodal fusion 対とMultimodal fusion 結果間の相互情報(MI)を階層的に最大化するフレームワークである。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
MI境界の難解な問題に対処するため、計算学的に単純なパラメトリック法と非パラメトリック法をさらに定式化し、真理値を近似する。
この2つのデータセットにおける実験結果から,本手法の有効性が示された。
この実装はhttps://github.com/declare-lab/multimodal-infomaxで公開されている。
関連論文リスト
- GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis [0.0]
マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
提案するGSIFNは,これらの問題を解決するために2つの主成分を組み込んでいる。
これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-08-27T06:44:28Z) - How Intermodal Interaction Affects the Performance of Deep Multimodal Fusion for Mixed-Type Time Series [3.6958071416494414]
MTTS(Mixed-type Time Series)は、医療、金融、環境モニタリング、ソーシャルメディアなど、多くの分野で一般的なバイモーダルデータである。
マルチモーダル融合による両モードの統合はMTTSの処理において有望なアプローチである。
MTTS予測のための深層多モード融合手法の総合評価を行った。
論文 参考訳(メタデータ) (2024-06-21T12:26:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文 参考訳(メタデータ) (2024-04-25T07:21:14Z) - Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task
Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。
既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。
本研究では,自己教師型学習方式のセルフMIを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:10:36Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。
様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文 参考訳(メタデータ) (2022-03-31T21:35:13Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。