論文の概要: PDMP: Rethinking Balanced Multimodal Learning via Performance-Dominant Modality Prioritization
- arxiv url: http://arxiv.org/abs/2604.05773v1
- Date: Tue, 07 Apr 2026 12:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.807265
- Title: PDMP: Rethinking Balanced Multimodal Learning via Performance-Dominant Modality Prioritization
- Title(参考訳): PDMP:パフォーマンスの支配的モダリティ優先順位付けによるバランスの取れたマルチモーダル学習の再考
- Authors: Shicai Wei, Chunbo Luo, Qiang Zhu, Yang Luo,
- Abstract要約: マルチモーダル学習を支援するPDMP(Performance-Dominant Modality Prioritization)戦略を提案する。
PDMPは、独立に訓練されたユニモーダルモデルのパフォーマンスランキングを通じて、まず、パフォーマンスに優位なモダリティをマイニングする。
PDMPは単調な性能ランキングにのみ依存するため、マルチモーダルモデルの構造と融合法には依存しない。
- 参考スコア(独自算出の注目度): 25.769520658115553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning has attracted increasing attention due to its practicality. However, it often suffers from insufficient optimization, where the multimodal model underperforms even compared to its unimodal counterparts. Existing methods attribute this problem to the imbalanced learning between modalities and solve it by gradient modulation. This paper argues that balanced learning is not the optimal setting for multimodal learning. On the contrary, imbalanced learning driven by the performance-dominant modality that has superior unimodal performance can contribute to better multimodal performance. And the under-optimization problem is caused by insufficient learning of the performance-dominant modality. To this end, we propose the Performance-Dominant Modality Prioritization (PDMP) strategy to assist multimodal learning. Specifically, PDMP firstly mines the performance-dominant modality via the performance ranking of the independently trained unimodal model. Then PDMP introduces asymmetric coefficients to modulate the gradients of each modality, enabling the performance-dominant modality to dominate the optimization. Since PDMP only relies on the unimodal performance ranking, it is independent of the structures and fusion methods of the multimodal model and has great potential for practical scenarios. Finally, extensive experiments on various datasets validate the superiority of PDMP.
- Abstract(参考訳): マルチモーダル学習はその実用性から注目を集めている。
しかし、最適化が不十分な場合が多いため、マルチモーダルモデルは非モーダルモデルと比較しても性能が劣る。
既存の手法では、この問題はモダリティ間の不均衡学習に起因し、勾配変調によって解ける。
本稿では,バランス学習がマルチモーダル学習の最適設定ではないことを論じる。
それとは対照的に、単調性能が優れている性能優位性によって駆動される不均衡学習は、より優れたマルチモーダル性能に寄与する。
また、過度な最適化問題は、性能優位なモダリティの学習が不十分なことに起因する。
そこで本稿では,マルチモーダル学習を支援するPDMP(Performance-Dominant Modality Prioritization)戦略を提案する。
具体的には、PDMPは、独立に訓練されたユニモーダルモデルのパフォーマンスランキングを通じて、まず、パフォーマンスに優位なモダリティをマイニングする。
そして、PDMPは各モードの勾配を変調するために非対称係数を導入し、性能優位なモードが最適化を支配する。
PDMPは単調な性能ランキングにのみ依存するため、マルチモーダルモデルの構造と融合法には依存せず、実用的なシナリオにおいて大きな可能性を秘めている。
最後に、様々なデータセットに関する広範な実験により、PDMPの優位性を検証した。
関連論文リスト
- Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition [23.335246964537223]
本稿では,自己教師型マルチモーダルスケルトンに基づく行動表現学習フレームワーク,Decomposition and Composingを紹介する。
提案手法は,計算コストとモデル性能のバランスが良好である。
論文 参考訳(メタデータ) (2025-12-24T09:10:04Z) - MILES: Modality-Informed Learning Rate Scheduler for Balancing Multimodal Learning [47.487732221767196]
MILES (Modality-Informed Learning RatE Scheduler) を多モード関節融合モデルの訓練用として提案する。
MILESは、マルチモーダル学習を効果的にバランスさせるために、トレーニング中のモダリティワイド条件付き利用率のバランスをとる。
MILESは,本研究で検討した全タスクおよび融合法において,すべてのベースラインに優れることを示す。
論文 参考訳(メタデータ) (2025-10-20T10:34:59Z) - AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning [55.56234913868664]
そこで我々は,適応型ネットワーク内変調(AIM)を提案し,バランスの取れたモダリティ学習を改善する。
AIMは、変調中のネットワーク内のパラメータと深さの最適化状態の違いを考慮に入れている。
AIMは、複数のベンチマークにおいて、最先端の非バランスなモダリティ学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-27T10:53:36Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Multimodal Classification via Modal-Aware Interactive Enhancement [6.621745547882088]
モーダル・アウェア・インタラクティブ・エンハンスメント(MIE)と呼ばれる新しいマルチモーダル学習手法を提案する。
具体的には、まず、シャープネス認識最小化(SAM)に基づく最適化戦略を用いて、前フェーズにおける学習目標の円滑化を図る。
そこで, SAMの幾何学的性質の助けを借りて, 逆相における異なるモード間の影響を加味するための勾配修正戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:32:07Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - PMR: Prototypical Modal Rebalance for Multimodal Learning [11.5547414386921]
本稿では,PMR(Prototypeal Modality Re Balance)を提案する。
本手法は,各モードの表現にのみ依存し,モデル構造や融合法からの制約を伴わない。
論文 参考訳(メタデータ) (2022-11-14T03:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。