論文の概要: Triple Disentangled Representation Learning for Multimodal Affective Analysis
- arxiv url: http://arxiv.org/abs/2401.16119v2
- Date: Mon, 8 Apr 2024 08:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:26:28.366397
- Title: Triple Disentangled Representation Learning for Multimodal Affective Analysis
- Title(参考訳): マルチモーダル感情分析のための三重対角表現学習
- Authors: Ying Zhou, Xuefeng Liang, Han Chen, Yin Zhao, Xin Chen, Lida Yu,
- Abstract要約: マルチモーダル学習は感情分析タスクにおいて大きな優位性を示した。
多くの新しい研究は、入力データからモダリティ不変およびモダリティ固有表現を切り離し、予測のためにそれらを融合することに焦点を当てている。
入力データから、モダリティ不変量、有効モダリティ特化度、非効率モダリティ特化度をアンタングル化する新しい三重非アンタングル化手法TriDiRAを提案する。
- 参考スコア(独自算出の注目度): 20.37986194570143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning has exhibited a significant advantage in affective analysis tasks owing to the comprehensive information of various modalities, particularly the complementary information. Thus, many emerging studies focus on disentangling the modality-invariant and modality-specific representations from input data and then fusing them for prediction. However, our study shows that modality-specific representations may contain information that is irrelevant or conflicting with the tasks, which downgrades the effectiveness of learned multimodal representations. We revisit the disentanglement issue, and propose a novel triple disentanglement approach, TriDiRA, which disentangles the modality-invariant, effective modality-specific and ineffective modality-specific representations from input data. By fusing only the modality-invariant and effective modality-specific representations, TriDiRA can significantly alleviate the impact of irrelevant and conflicting information across modalities during model training. Extensive experiments conducted on four benchmark datasets demonstrate the effectiveness and generalization of our triple disentanglement, which outperforms SOTA methods.
- Abstract(参考訳): マルチモーダル学習は、様々なモーダルの包括的情報、特に相補的情報により、感情分析タスクにおいて大きな優位性を示した。
このように、多くの新しい研究は、入力データからモダリティ不変表現とモダリティ固有表現を切り離し、予測のためにそれらを融合することに焦点を当てている。
しかし,本研究では,モダリティに特有な表現には,タスクとは無関係あるいは矛盾する情報が含まれており,学習されたマルチモーダル表現の有効性を低下させる可能性が示唆された。
本稿では, アンタングル化問題を再検討し, 入力データから, モダリティ不変, 有効モダリティ特化, 不効果的なモダリティ特化表現を非アンタングル化する三重アンタングル化手法TriDiRAを提案する。
TriDiRAは、モダリティ不変かつ効果的なモダリティ特化表現のみを融合することにより、モデルトレーニング中のモダリティ間の無関係かつ矛盾する情報の影響を著しく軽減することができる。
4つのベンチマークデータセットで実施した大規模な実験は、SOTA法より優れている3つの絡み合いの有効性と一般化を実証している。
関連論文リスト
- An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。
Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文 参考訳(メタデータ) (2024-10-31T14:57:31Z) - Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T02:12:26Z) - Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Adjacency List Oriented Relational Fact Extraction via Adaptive
Multi-task Learning [24.77542721790553]
本稿では,すべての事実抽出モデルをグラフ指向分析の観点から整理可能であることを示す。
この分析枠組みに基づいて,効率的なモデルaDjacency lIst oRientational faCT(Direct)を提案する。
論文 参考訳(メタデータ) (2021-06-03T02:57:08Z) - Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。
エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。
提案手法は5つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-03-12T11:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。