論文の概要: Improving Multimodal Learning via Imbalanced Learning
- arxiv url: http://arxiv.org/abs/2507.10203v1
- Date: Mon, 14 Jul 2025 12:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.862979
- Title: Improving Multimodal Learning via Imbalanced Learning
- Title(参考訳): 不均衡学習によるマルチモーダル学習の改善
- Authors: Shicai Wei, Chunbo Luo, Yang Luo,
- Abstract要約: マルチモーダル学習はしばしば最適化されていない問題に遭遇し、一助学習よりも悪い結果をもたらす。
本稿では,バランス学習がマルチモーダル学習の最適設定ではないことを論じる。
不均衡最適化によるマルチモーダル学習を支援するための非対称表現学習(ARL)戦略を提案する。
- 参考スコア(独自算出の注目度): 6.93254775445168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning often encounters the under-optimized problem and may perform worse than unimodal learning. Existing approaches attribute this issue to imbalanced learning across modalities and tend to address it through gradient balancing. However, this paper argues that balanced learning is not the optimal setting for multimodal learning. With bias-variance analysis, we prove that imbalanced dependency on each modality obeying the inverse ratio of their variances contributes to optimal performance. To this end, we propose the Asymmetric Representation Learning(ARL) strategy to assist multimodal learning via imbalanced optimization. ARL introduces auxiliary regularizers for each modality encoder to calculate their prediction variance. ARL then calculates coefficients via the unimodal variance to re-weight the optimization of each modality, forcing the modality dependence ratio to be inversely proportional to the modality variance ratio. Moreover, to minimize the generalization error, ARL further introduces the prediction bias of each modality and jointly optimizes them with multimodal loss. Notably, all auxiliary regularizers share parameters with the multimodal model and rely only on the modality representation. Thus the proposed ARL strategy introduces no extra parameters and is independent of the structures and fusion methods of the multimodal model. Finally, extensive experiments on various datasets validate the effectiveness and versatility of ARL. Code is available at \href{https://github.com/shicaiwei123/ICCV2025-ARL}{https://github.com/shicaiwei123/ICCV2025-ARL}
- Abstract(参考訳): マルチモーダル学習はしばしば最適化されていない問題に遭遇し、一助学習よりも悪い結果をもたらす。
既存のアプローチでは、この問題はモダリティを越えた不均衡な学習であり、勾配のバランスによって対処する傾向にある。
しかし,本論文では,バランス学習がマルチモーダル学習の最適設定ではないことを論じる。
バイアス分散分析により,その分散の逆比に従えば,各モードに対する不均衡な依存性が最適性能に寄与することが証明された。
そこで本稿では,不均衡最適化によるマルチモーダル学習を支援するために,非対称表現学習(ARL)戦略を提案する。
ARLは、各モードエンコーダに対する補助正則化器を導入し、予測分散を計算する。
次に、ARLは、各モードの最適化を再重み付けするために、一変数分散による係数を計算し、モダリティ依存性比は、モダリティ分散比に逆比例するように強制する。
さらに、一般化誤差を最小限に抑えるため、ARLはさらに各モードの予測バイアスを導入し、多モード損失でそれらを共同最適化する。
特に、すべての補助正則化器はマルチモーダルモデルとパラメータを共有し、モダリティ表現にのみ依存する。
したがって、提案したARL戦略は余分なパラメータを導入せず、マルチモーダルモデルの構造と融合法に依存しない。
最後に、様々なデータセットに関する広範な実験により、ARLの有効性と汎用性を検証する。
コードは \href{https://github.com/shicaiwei123/ICCV2025-ARL}{https://github.com/shicaiwei123/ICCV2025-ARL} で公開されている。
関連論文リスト
- Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Improving Multimodal Learning Balance and Sufficiency through Data Remixing [14.282792733217653]
弱いモダリティを強制する方法は、単調な充足性とマルチモーダルなバランスを達成できない。
マルチモーダルデータのデカップリングや,各モーダルに対するハードサンプルのフィルタリングなど,モダリティの不均衡を軽減するマルチモーダルデータリミックスを提案する。
提案手法は既存の手法とシームレスに統合され,CREMADでは約6.50%$uparrow$,Kineetic-Soundsでは3.41%$uparrow$の精度が向上する。
論文 参考訳(メタデータ) (2025-06-13T08:01:29Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Rebalanced Multimodal Learning with Data-aware Unimodal Sampling [39.77348232514481]
We propose a novel MML approach called underlineData-aware underlineUnimodal underlineSampling(method)。
学習状況に基づいて、強化学習(RL)に基づくデータ認識アンモダルサンプリング手法を提案する。
本手法は,プラグインとして既存のほとんどすべてのマルチモーダル学習手法にシームレスに組み込むことができる。
論文 参考訳(メタデータ) (2025-03-05T08:19:31Z) - Multimodal Fusion Balancing Through Game-Theoretic Regularization [22.959030061257533]
アンサンブルのような単純なベースラインを超越したマルチモーダルモデルの訓練には,現在のバランス手法が苦戦していることを示す。
マルチモーダルトレーニングにおけるすべてのモダリティが十分にトレーニングされていること、新しいモダリティからの学習が一貫してパフォーマンスを改善することを保証するにはどうすればよいのか?
本稿では,相互情報(MI)分解にインスパイアされた新たな損失成分であるMCRを提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Modality-Balanced Learning for Multimedia Recommendation [21.772064939915214]
本稿では,不均衡問題を解消し,全てのモダリティを最大限に活用するための対実的知識蒸留法を提案する。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-26T07:53:01Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks [13.065212096469537]
モーダル有意性を考慮した適応マスクサブネット(adaptively Mask Subnetworks, AMSS)と呼ばれる, サンプリングベース, 要素単位の結合最適化手法を提案する。
具体的には,モーダルの重要度を決定するために相互情報レートを組み込んで,パラメータ更新のために各モーダルからフォアグラウンドワークを選択するために,非一様適応サンプリングを用いる。
理論的知見に基づいて、AMSS+と呼ばれる非バイアス推定を用いたマルチモーダルマスクサブネットワーク戦略をさらに強化する。
論文 参考訳(メタデータ) (2024-04-12T09:22:24Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。