論文の概要: Balanced Multimodal Learning via Mutual Information
- arxiv url: http://arxiv.org/abs/2511.00987v1
- Date: Sun, 02 Nov 2025 15:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.01582
- Title: Balanced Multimodal Learning via Mutual Information
- Title(参考訳): 相互情報によるバランス付きマルチモーダル学習
- Authors: Rongrong Xie, Guido Sanguinetti,
- Abstract要約: 本稿では,モダリティ間の相互作用を定量化するために相互情報を活用することで,モダリティの不均衡に対処する新しい統一フレームワークを提案する。
本手法では, クロスモーダル知識蒸留(KD)とマルチタスク型学習パラダイムの2つの主要な段階からなる, バランスの取れたマルチモーダル学習戦略を採用する。
- 参考スコア(独自算出の注目度): 1.9336815376402718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning has increasingly become a focal point in research, primarily due to its ability to integrate complementary information from diverse modalities. Nevertheless, modality imbalance, stemming from factors such as insufficient data acquisition and disparities in data quality, has often been inadequately addressed. This issue is particularly prominent in biological data analysis, where datasets are frequently limited, costly to acquire, and inherently heterogeneous in quality. Conventional multimodal methodologies typically fall short in concurrently harnessing intermodal synergies and effectively resolving modality conflicts. In this study, we propose a novel unified framework explicitly designed to address modality imbalance by utilizing mutual information to quantify interactions between modalities. Our approach adopts a balanced multimodal learning strategy comprising two key stages: cross-modal knowledge distillation (KD) and a multitask-like training paradigm. During the cross-modal KD pretraining phase, stronger modalities are leveraged to enhance the predictive capabilities of weaker modalities. Subsequently, our primary training phase employs a multitask-like learning mechanism, dynamically calibrating gradient contributions based on modality-specific performance metrics and intermodal mutual information. This approach effectively alleviates modality imbalance, thereby significantly improving overall multimodal model performance.
- Abstract(参考訳): マルチモーダル学習は、主に様々なモーダルから補完的な情報を統合する能力によって、研究の焦点となっている。
それでも、データ取得の不十分やデータ品質の格差といった要因から生じるモダリティの不均衡は、しばしば不十分に対処されてきた。
この問題は、データセットが頻繁に制限され、取得するのにコストがかかり、品質が本質的に異質である生物学的データ分析において特に顕著である。
従来のマルチモーダル手法は、通常、モーダル間のシナジーを同時に活用し、モダリティの衝突を効果的に解決するのに不足する。
本研究では,モダリティ間の相互作用を定量化するために相互情報を活用することで,モダリティの不均衡に対処する新しい統一フレームワークを提案する。
本手法では, クロスモーダル知識蒸留(KD)とマルチタスク型学習パラダイムの2つの主要な段階からなる, バランスの取れたマルチモーダル学習戦略を採用する。
クロスモーダルKDプレトレーニングフェーズでは、より弱いモーダルの予測能力を高めるために、より強いモーダルティが活用される。
その後、我々の初等訓練段階はマルチタスク的な学習機構を採用し、モダリティ固有のパフォーマンス指標とモーダル間の相互情報に基づいて勾配寄与を動的に調整する。
このアプローチは、モダリティの不均衡を効果的に軽減し、全体としてのマルチモーダルモデルの性能を大幅に改善する。
関連論文リスト
- Balanced Multimodal Learning: An Unidirectional Dynamic Interaction Perspective [41.26526184466649]
マルチモーダル学習は通常、異なるモダリティを統合し、モデル性能を向上させるために、マルチモーダルジョイントロスを利用する。
動的損失重み付け、補助目標、勾配変調といった既存の戦略は、関節の損失に基づくモダリティの不均衡を緩和する。
本稿では,一方向動的インタラクション(UDI)を導入する。これは,従来の共同損失を放棄し,積極的な逐次トレーニング方式を採用する新しい戦略である。
論文 参考訳(メタデータ) (2025-09-02T13:05:58Z) - DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning [27.20479303843989]
DynCIMは、サンプルとモダリティの両方の観点から固有の不均衡を定量化するために設計された、新しい動的カリキュラム学習フレームワークである。
DynCIMは、予測偏差、一貫性、安定性に応じて各サンプルの難易度を動的に評価するために、サンプルレベルのカリキュラムを使用している。
モダリティレベルのカリキュラムは、グローバルおよびローカルからのモダリティ貢献を測定する。
論文 参考訳(メタデータ) (2025-03-09T05:30:15Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。