論文の概要: Balanced Multimodal Learning: An Unidirectional Dynamic Interaction Perspective
- arxiv url: http://arxiv.org/abs/2509.02281v3
- Date: Fri, 05 Sep 2025 05:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 12:28:42.575373
- Title: Balanced Multimodal Learning: An Unidirectional Dynamic Interaction Perspective
- Title(参考訳): バランスの取れたマルチモーダル学習:一方向的動的相互作用の視点から
- Authors: Shijie Wang, Li Zhang, Xinyan Liang, Yuhua Qian, Shen Hu,
- Abstract要約: マルチモーダル学習は通常、異なるモダリティを統合し、モデル性能を向上させるために、マルチモーダルジョイントロスを利用する。
動的損失重み付け、補助目標、勾配変調といった既存の戦略は、関節の損失に基づくモダリティの不均衡を緩和する。
本稿では,一方向動的インタラクション(UDI)を導入する。これは,従来の共同損失を放棄し,積極的な逐次トレーニング方式を採用する新しい戦略である。
- 参考スコア(独自算出の注目度): 41.26526184466649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning typically utilizes multimodal joint loss to integrate different modalities and enhance model performance. However, this joint learning strategy can induce modality imbalance, where strong modalities overwhelm weaker ones and limit exploitation of individual information from each modality and the inter-modality interaction information. Existing strategies such as dynamic loss weighting, auxiliary objectives and gradient modulation mitigate modality imbalance based on joint loss. These methods remain fundamentally reactive, detecting and correcting imbalance after it arises, while leaving the competitive nature of the joint loss untouched. This limitation drives us to explore a new strategy for multimodal imbalance learning that does not rely on the joint loss, enabling more effective interactions between modalities and better utilization of information from individual modalities and their interactions. In this paper, we introduce Unidirectional Dynamic Interaction (UDI), a novel strategy that abandons the conventional joint loss in favor of a proactive, sequential training scheme. UDI first trains the anchor modality to convergence, then uses its learned representations to guide the other modality via unsupervised loss. Furthermore, the dynamic adjustment of modality interactions allows the model to adapt to the task at hand, ensuring that each modality contributes optimally. By decoupling modality optimization and enabling directed information flow, UDI prevents domination by any single modality and fosters effective cross-modal feature learning. Our experimental results demonstrate that UDI outperforms existing methods in handling modality imbalance, leading to performance improvement in multimodal learning tasks.
- Abstract(参考訳): マルチモーダル学習は通常、異なるモダリティを統合し、モデル性能を向上させるために、マルチモーダルジョイントロスを利用する。
しかし、この共同学習戦略は、強いモダリティが弱いモダリティを圧倒し、各モダリティとモダリティ間相互作用情報からの個々の情報の利用を制限するモダリティ不均衡を誘発することができる。
動的損失重み付け、補助目標、勾配変調といった既存の戦略は、関節の損失に基づくモダリティの不均衡を緩和する。
これらの手法は基本的に反応し、その後不均衡を検知し、修正するが、関節の損失の競争的性質は触れないままである。
この制限により、私たちは、モダリティ間のより効果的な相互作用と、個々のモダリティとそれらの相互作用からの情報のより良い利用を可能にする、ジョイントロスに依存しないマルチモーダル不均衡学習のための新しい戦略を探ることができます。
本稿では,一方向動的インタラクション(UDI)について紹介する。
UDIはまず、アンカーのモダリティを収束させるために訓練し、学習した表現を使って、教師なしの損失を通じて他のモダリティを導く。
さらに、モーダリティ相互作用の動的調整により、モデルが与えられたタスクに適応し、各モーダリティが最適に寄与することを保証できる。
モーダリティ最適化を分離し、指示情報フローを有効にすることにより、UDIは任意のモーダリティによる支配を防ぎ、効果的なモーダリティ横断的特徴学習を促進する。
実験の結果, UDI はモーダリティの不均衡処理における既存手法よりも優れており, マルチモーダル学習タスクの性能向上につながっていることがわかった。
関連論文リスト
- AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning [55.56234913868664]
そこで我々は,適応型ネットワーク内変調(AIM)を提案し,バランスの取れたモダリティ学習を改善する。
AIMは、変調中のネットワーク内のパラメータと深さの最適化状態の違いを考慮に入れている。
AIMは、複数のベンチマークにおいて、最先端の非バランスなモダリティ学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-27T10:53:36Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Multimodal Fusion Balancing Through Game-Theoretic Regularization [22.959030061257533]
アンサンブルのような単純なベースラインを超越したマルチモーダルモデルの訓練には,現在のバランス手法が苦戦していることを示す。
マルチモーダルトレーニングにおけるすべてのモダリティが十分にトレーニングされていること、新しいモダリティからの学習が一貫してパフォーマンスを改善することを保証するにはどうすればよいのか?
本稿では,相互情報(MI)分解にインスパイアされた新たな損失成分であるMCRを提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Multimodal Classification via Modal-Aware Interactive Enhancement [6.621745547882088]
モーダル・アウェア・インタラクティブ・エンハンスメント(MIE)と呼ばれる新しいマルチモーダル学習手法を提案する。
具体的には、まず、シャープネス認識最小化(SAM)に基づく最適化戦略を用いて、前フェーズにおける学習目標の円滑化を図る。
そこで, SAMの幾何学的性質の助けを借りて, 逆相における異なるモード間の影響を加味するための勾配修正戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:32:07Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。