論文の概要: Harnessing Shared Relations via Multimodal Mixup Contrastive Learning for Multimodal Classification
- arxiv url: http://arxiv.org/abs/2409.17777v2
- Date: Fri, 18 Oct 2024 16:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 16:00:56.932457
- Title: Harnessing Shared Relations via Multimodal Mixup Contrastive Learning for Multimodal Classification
- Title(参考訳): マルチモーダル分類のためのマルチモーダル混合コントラスト学習による共有関係の調和
- Authors: Raja Kumar, Raghav Singhal, Pranamya Kulkarni, Deval Mehta, Kshitij Jadhav,
- Abstract要約: マルチモーダルデータに固有のニュアンス付き共有関係を抽出するマルチモーダル混合コントラスト学習手法であるM3CoLを提案する。
我々の研究は、堅牢なマルチモーダル学習のための共有関係の学習の重要性を強調し、将来の研究に有望な道を開く。
- 参考スコア(独自算出の注目度): 3.6616868775630587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep multimodal learning has shown remarkable success by leveraging contrastive learning to capture explicit one-to-one relations across modalities. However, real-world data often exhibits shared relations beyond simple pairwise associations. We propose M3CoL, a Multimodal Mixup Contrastive Learning approach to capture nuanced shared relations inherent in multimodal data. Our key contribution is a Mixup-based contrastive loss that learns robust representations by aligning mixed samples from one modality with their corresponding samples from other modalities thereby capturing shared relations between them. For multimodal classification tasks, we introduce a framework that integrates a fusion module with unimodal prediction modules for auxiliary supervision during training, complemented by our proposed Mixup-based contrastive loss. Through extensive experiments on diverse datasets (N24News, ROSMAP, BRCA, and Food-101), we demonstrate that M3CoL effectively captures shared multimodal relations and generalizes across domains. It outperforms state-of-the-art methods on N24News, ROSMAP, and BRCA, while achieving comparable performance on Food-101. Our work highlights the significance of learning shared relations for robust multimodal learning, opening up promising avenues for future research.
- Abstract(参考訳): 深いマルチモーダル学習は、対照的な学習を活用して、モダリティをまたいだ明示的な1対1の関係を捉えることで、顕著な成功を収めた。
しかし、実世界のデータは単純な対関係を超えて共有関係を示すことが多い。
マルチモーダルデータに固有のニュアンス付き共有関係を抽出するマルチモーダル混合コントラスト学習手法であるM3CoLを提案する。
我々の重要な貢献はミックスアップに基づくコントラッシブ・ロスであり、あるモダリティから混合サンプルを他のモダリティから対応するサンプルと整列させ、それら間の共有関係を捉えることによって、ロバストな表現を学ぶ。
マルチモーダル分類タスクでは,Mixupに基づくコントラスト損失を補足して,統合モジュールと単調予測モジュールを統合してトレーニング中の補助的監視を行うフレームワークを導入する。
多様なデータセット(N24News、ROSMAP、BRCA、Food-101)の広範な実験を通じて、M3CoLが共有マルチモーダル関係を効果的に捉え、ドメイン間の一般化を実証する。
N24News、ROSMAP、BRCAでは最先端の手法より優れており、Food-101では同等のパフォーマンスを達成している。
我々の研究は、堅牢なマルチモーダル学習のための共有関係の学習の重要性を強調し、将来の研究に有望な道を開く。
関連論文リスト
- What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。
この定式化から,情報共有,相乗的,一意的な用語が自然に出現し,冗長性を超えたマルチモーダル相互作用を推定できることを示す。
後者では、CoMMは複雑なマルチモーダル相互作用を学び、6つのマルチモーダルベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-11T16:42:22Z) - Detached and Interactive Multimodal Learning [17.843121072628477]
本稿では,モダリティにまたがる補完情報を学習するための新しいMMLフレームワークであるDI-MMLを紹介する。
各モダリティエンコーダを独立した学習目標で個別に訓練することで、競争に対処する。
音声・視覚・フロー画像・前面画像データを用いた実験は,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-28T15:38:58Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Decoupling Common and Unique Representations for Multimodal Self-supervised Learning [22.12729786091061]
マルチモーダルな自己教師型学習のための簡易かつ効果的な方法として,Decoupling Common and Unique Representations (DeCUR)を提案する。
マルチモーダル冗長性低減によるモーダル内埋め込みとモーダル内埋め込みを区別することにより、DeCURは異なるモーダル間で補完情報を統合できる。
論文 参考訳(メタデータ) (2023-09-11T08:35:23Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。