論文の概要: MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance
- arxiv url: http://arxiv.org/abs/2405.17730v1
- Date: Tue, 28 May 2024 01:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 22:51:42.246701
- Title: MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance
- Title(参考訳): MMPareto:無害なユニモーダル支援によるマルチモーダル学習の促進
- Authors: Yake Wei, Di Hu,
- Abstract要約: 従来無視されていた多モーダル学習目標と単モーダル学習目標との勾配の衝突を同定する。
MMParetoアルゴリズムを提案することで、学習目的に共通する方向の最終的な勾配を確保することができる。
また,タスクの難易度に明確な相違点のあるマルチタスクケースも容易に行えることが期待されている。
- 参考スコア(独自算出の注目度): 10.580712937465032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning methods with targeted unimodal learning objectives have exhibited their superior efficacy in alleviating the imbalanced multimodal learning problem. However, in this paper, we identify the previously ignored gradient conflict between multimodal and unimodal learning objectives, potentially misleading the unimodal encoder optimization. To well diminish these conflicts, we observe the discrepancy between multimodal loss and unimodal loss, where both gradient magnitude and covariance of the easier-to-learn multimodal loss are smaller than the unimodal one. With this property, we analyze Pareto integration under our multimodal scenario and propose MMPareto algorithm, which could ensure a final gradient with direction that is common to all learning objectives and enhanced magnitude to improve generalization, providing innocent unimodal assistance. Finally, experiments across multiple types of modalities and frameworks with dense cross-modal interaction indicate our superior and extendable method performance. Our method is also expected to facilitate multi-task cases with a clear discrepancy in task difficulty, demonstrating its ideal scalability. The source code and dataset are available at https://github.com/GeWu-Lab/MMPareto_ICML2024.
- Abstract(参考訳): 対象とする一助学習目標を持つマルチモーダル学習法は,不均衡なマルチモーダル学習問題を緩和する上で,優れた効果を示した。
しかし,本論文では,マルチモーダル学習目標と非モーダル学習目標との従来無視されていた勾配の矛盾を同定し,アンモーダルエンコーダの最適化を誤解させる可能性がある。
これらの矛盾をうまく低減するため, マルチモーダル損失と単一モーダル損失の差を観察し, より容易で学習しやすいマルチモーダル損失の勾配の大きさと共分散が, 単モーダル損失よりも小さいことを示した。
この特性により,マルチモーダルシナリオ下でのPareto統合の解析とMMParetoアルゴリズムを提案する。
最後に、多種多様なモーダル性および密接な相互モーダル相互作用を持つフレームワークを用いた実験は、我々の優れた拡張可能なメソッド性能を示している。
また,タスクの難易度に明確な相違があるマルチタスクのケースを容易にし,その理想的なスケーラビリティを示すことが期待されている。
ソースコードとデータセットはhttps://github.com/GeWu-Lab/MMPareto_ICML2024で公開されている。
関連論文リスト
- On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Modality-Balanced Learning for Multimedia Recommendation [21.772064939915214]
本稿では,不均衡問題を解消し,全てのモダリティを最大限に活用するための対実的知識蒸留法を提案する。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-26T07:53:01Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Deep Metric Loss for Multimodal Learning [3.8979646385036175]
マルチモーダル学習のための新しいテキストマルチモーダル損失パラダイムを提案する。
textMultiModal Losは、過剰適合による非効率な学習を防止し、マルチモーダルモデルを効率的に最適化する。
我々の損失は、最近のモデルの性能向上を実証的に示す。
論文 参考訳(メタデータ) (2023-08-21T06:04:30Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning [29.237813880311943]
本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。
2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T09:18:38Z) - Improving Multi-Modal Learning with Uni-Modal Teachers [14.917618203952479]
そこで本研究では,融合目標と一様蒸留を組み合わせたマルチモーダル学習手法Uni-Modal Teacherを提案する。
提案手法は,各モードの表現を劇的に改善するだけでなく,総合的なマルチモーダルタスク性能も向上することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。