論文の概要: Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences
- arxiv url: http://arxiv.org/abs/2409.12408v1
- Date: Thu, 19 Sep 2024 02:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 15:03:37.753623
- Title: Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences
- Title(参考訳): 非整合多モーダル言語系列に対する相互情報に基づく表現のアンタングル化
- Authors: Fan Qian, Jiqing Han, Jianchen Li, Yongjun He, Tieran Zheng, Guibin Zheng,
- Abstract要約: 不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
- 参考スコア(独自算出の注目度): 25.73415065546444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key challenge in unaligned multimodal language sequences lies in effectively integrating information from various modalities to obtain a refined multimodal joint representation. Recently, the disentangle and fuse methods have achieved the promising performance by explicitly learning modality-agnostic and modality-specific representations and then fusing them into a multimodal joint representation. However, these methods often independently learn modality-agnostic representations for each modality and utilize orthogonal constraints to reduce linear correlations between modality-agnostic and modality-specific representations, neglecting to eliminate their nonlinear correlations. As a result, the obtained multimodal joint representation usually suffers from information redundancy, leading to overfitting and poor generalization of the models. In this paper, we propose a Mutual Information-based Representations Disentanglement (MIRD) method for unaligned multimodal language sequences, in which a novel disentanglement framework is designed to jointly learn a single modality-agnostic representation. In addition, the mutual information minimization constraint is employed to ensure superior disentanglement of representations, thereby eliminating information redundancy within the multimodal joint representation. Furthermore, the challenge of estimating mutual information caused by the limited labeled data is mitigated by introducing unlabeled data. Meanwhile, the unlabeled data also help to characterize the underlying structure of multimodal data, consequently further preventing overfitting and enhancing the performance of the models. Experimental results on several widely used benchmark datasets validate the effectiveness of our proposed approach.
- Abstract(参考訳): 不整合多モーダル言語列の鍵となる課題は、洗練された多モーダル関節表現を得るために、様々なモーダルからの情報を効果的に統合することにある。
近年,不整合およびヒューズ法は,モダリティ非依存およびモダリティ特化表現を明示的に学習し,それらをマルチモーダルな関節表現に融合することで,有望な性能を実現している。
しかしながら、これらの手法は、各モダリティに対するモダリティ非依存表現を独立に学習し、直交制約を利用して、モダリティ非依存表現とモダリティ固有表現の間の線形相関を減らし、それらの非線形相関を排除している。
その結果、得られたマルチモーダルな関節表現は、通常、情報の冗長性に悩まされ、モデルの過度な適合と一般化に繋がる。
本稿では,非整合多モーダル言語列に対する相互情報に基づくRepresentations Disentanglement(MIRD)手法を提案する。
さらに、相互情報最小化制約を用いて表現のより優れた絡み合いを確保することにより、マルチモーダルな関節表現における情報冗長性を解消する。
さらに、ラベル付けされていないデータを導入することにより、ラベル付けされたデータによって引き起こされる相互情報を推定する課題を緩和する。
一方、ラベル付けされていないデータは、マルチモーダルデータの基盤構造を特徴づけるのにも役立ち、結果としてモデルの過度な適合や性能向上を防止できる。
提案手法の有効性を検証するために, 広く利用されているベンチマークデータセットの実験結果を得た。
関連論文リスト
- Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z) - Learning Multi-Modal Nonlinear Embeddings: Performance Bounds and an
Algorithm [8.528384027684192]
本稿では,マルチモーダルな非線形埋め込みを教師付き環境で学習する理論的解析を行う。
次に,これらの理論的な発見を動機とした多モード非線形表現学習アルゴリズムを提案する。
近年のマルチモーダル・シングルモーダル学習アルゴリズムとの比較により,提案手法は多モーダル画像分類およびクロスモーダル画像テキスト検索において有望な性能を示すことが示唆された。
論文 参考訳(メタデータ) (2020-06-03T15:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。