論文の概要: Balancing Multimodal Learning through Label Space Reshaping
- arxiv url: http://arxiv.org/abs/2605.28869v1
- Date: Fri, 22 May 2026 08:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.939064
- Title: Balancing Multimodal Learning through Label Space Reshaping
- Title(参考訳): ラベル空間再構成によるマルチモーダル学習のバランシング
- Authors: Xiaoyu Ma, Weijie Zhang, Yuanhao Gao, Han Miao, Yongjian Deng, Hao Chen,
- Abstract要約: 学習ペースの相違は、モダリティ固有の特徴空間と共有ラベル空間とのマッピングの難しさの違いから生じると論じる。
ラベル側設計からマルチモーダルバランスを促進する最初の方法として, BMLR(Ba balanced Multimodal Label Reshaping)を提案する。
- 参考スコア(独自算出の注目度): 21.889831594837677
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal learning often suffers from modality imbalance, where modalities that converge faster dominate optimization while others remain undertrained. Existing approaches typically mitigate this issue by strengthening the weak modality or adjusting optimization gradients. However, such strategies mainly compensate for optimization rate discrepancies, often at the expense of the strong modality's optimization capacity, without analyzing how these discrepancies arise at the modality level. Based on theoretical insights and empirical observations, we argue that the discrepancy of learning pace arises from differences in the mapping difficulty between modality-specific feature space and the shared label space. To address this issue, we propose Balanced Multimodal Label Reshaping (BMLR), the first method that promotes multimodal balance from the label-side design. BMLR reshapes the cross-modal label space to equalize mapping difficulty across modalities, thereby facilitating modality interaction and injecting richer inter-class information into each modality. Extensive experiments across multiple architectures demonstrate that BMLR consistently improves multimodal performance and exhibits strong compatibility with diverse model designs. The source code will be released soon.
- Abstract(参考訳): マルチモーダル学習は、しばしばモダリティの不均衡に悩まされる。
既存のアプローチは、弱いモダリティを強化したり、最適化の勾配を調整することで、この問題を軽減するのが一般的である。
しかし、このような戦略は主に最適化率の相違を補うものであり、しばしば、これらの相違がモダリティレベルでどのように生じるかを分析することなく、強いモダリティの最適化能力を犠牲にしている。
理論的な洞察と経験的観察に基づいて、学習ペースの相違は、モダリティ固有の特徴空間と共有ラベル空間とのマッピングの難しさの違いから生じると論じる。
この問題に対処するために,ラベル側設計からマルチモーダルバランスを促進する最初の手法であるBMLR(Ba balanced Multimodal Label Reshaping)を提案する。
BMLRは、モダリティ間のマッピング困難を等化するため、モダリティ間の相互作用を容易にし、よりリッチなクラス間の情報を各モダリティに注入する。
複数のアーキテクチャにわたる大規模な実験により、BMLRは一貫してマルチモーダル性能を改善し、多様なモデル設計との強い互換性を示す。
ソースコードはまもなくリリースされる予定だ。
関連論文リスト
- Modality-Balanced Collaborative Distillation for Multi-Modal Domain Generalization [72.83292830785336]
ウェイト平均化 (WA) は, 平坦な損失景観への収束を促進することによって, 一般化を促進する強力な手法として登場した。
マルチモーダル環境での欠点を克服しつつ,WAの平坦性に起因した優位性を保ちつつ,統一的な共同蒸留フレームワークMBCDを提案する。
論文 参考訳(メタデータ) (2025-11-25T12:38:28Z) - Representation Space Constrained Learning with Modality Decoupling for Multimodal Object Detection [3.556651853847748]
本稿では,マルチモーダル検出における核融合劣化の理論的検討を行う。
2つのモジュールからなるRepresentation Space Constrained Learning with Modality Decoupling (RSC-MD)法を提案する。
提案手法は, 核融合劣化を効果的に軽減し, 複数のベンチマークで最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-19T13:41:27Z) - Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning [55.56234913868664]
そこで我々は,適応型ネットワーク内変調(AIM)を提案し,バランスの取れたモダリティ学習を改善する。
AIMは、変調中のネットワーク内のパラメータと深さの最適化状態の違いを考慮に入れている。
AIMは、複数のベンチマークにおいて、最先端の非バランスなモダリティ学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-27T10:53:36Z) - Improving Multimodal Learning Balance and Sufficiency through Data Remixing [14.282792733217653]
弱いモダリティを強制する方法は、単調な充足性とマルチモーダルなバランスを達成できない。
マルチモーダルデータのデカップリングや,各モーダルに対するハードサンプルのフィルタリングなど,モダリティの不均衡を軽減するマルチモーダルデータリミックスを提案する。
提案手法は既存の手法とシームレスに統合され,CREMADでは約6.50%$uparrow$,Kineetic-Soundsでは3.41%$uparrow$の精度が向上する。
論文 参考訳(メタデータ) (2025-06-13T08:01:29Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。