論文の概要: Boosting Multimodal Learning via Disentangled Gradient Learning
- arxiv url: http://arxiv.org/abs/2507.10213v1
- Date: Mon, 14 Jul 2025 12:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.867733
- Title: Boosting Multimodal Learning via Disentangled Gradient Learning
- Title(参考訳): ディスタングル・グラディエント・ラーニングによるマルチモーダル・ラーニングの促進
- Authors: Shicai Wei, Chunbo Luo, Yang Luo,
- Abstract要約: マルチモーダル学習はしばしば最適化されていない問題に遭遇し、一助学習よりもパフォーマンスが劣る。
マルチモーダルモデルにおけるモダリティエンコーダとモダリティ融合モジュール間の最適化競合を明らかにする。
本稿では,モダリティエンコーダとモダリティ融合モジュールの最適化を分離するために,非交叉勾配学習(DGL)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.93254775445168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning often encounters the under-optimized problem and may have worse performance than unimodal learning. Existing methods attribute this problem to the imbalanced learning between modalities and rebalance them through gradient modulation. However, they fail to explain why the dominant modality in multimodal models also underperforms that in unimodal learning. In this work, we reveal the optimization conflict between the modality encoder and modality fusion module in multimodal models. Specifically, we prove that the cross-modal fusion in multimodal models decreases the gradient passed back to each modality encoder compared with unimodal models. Consequently, the performance of each modality in the multimodal model is inferior to that in the unimodal model. To this end, we propose a disentangled gradient learning (DGL) framework to decouple the optimization of the modality encoder and modality fusion module in the multimodal model. DGL truncates the gradient back-propagated from the multimodal loss to the modality encoder and replaces it with the gradient from unimodal loss. Besides, DGL removes the gradient back-propagated from the unimodal loss to the modality fusion module. This helps eliminate the gradient interference between the modality encoder and modality fusion module while ensuring their respective optimization processes. Finally, extensive experiments on multiple types of modalities, tasks, and frameworks with dense cross-modal interaction demonstrate the effectiveness and versatility of the proposed DGL. Code is available at \href{https://github.com/shicaiwei123/ICCV2025-GDL}{https://github.com/shicaiwei123/ICCV2025-GDL}
- Abstract(参考訳): マルチモーダル学習はしばしば最適化されていない問題に遭遇し、一助学習よりもパフォーマンスが劣る。
既存の手法では、この問題はモダリティ間の不均衡な学習と、勾配変調によってそれらを再均衡させることに起因している。
しかし、なぜマルチモーダルモデルにおける支配的なモダリティが、一助学習においてそのモダリティを損なうのかを説明できない。
本研究では,マルチモーダルモデルにおけるモダリティエンコーダとモダリティ融合モジュールとの最適化競合を明らかにする。
具体的には、マルチモーダルモデルにおけるクロスモーダル融合は、単モーダルモデルと比較して各モーダルエンコーダに渡される勾配を減少させることを示す。
したがって、マルチモーダルモデルにおける各モダリティのパフォーマンスは、ユニモーダルモデルよりも劣る。
そこで本研究では,マルチモーダルモデルにおけるモダリティエンコーダとモダリティ融合モジュールの最適化を分離する,非交叉勾配学習(DGL)フレームワークを提案する。
DGLはマルチモーダル損失からモダリティエンコーダへ逆転した勾配を非モード損失から勾配に置き換える。
さらに、DGLはモダリティ融合モジュールへの単調損失から逆転した勾配を除去する。
これにより、モダリティエンコーダとモダリティ融合モジュール間の勾配干渉を解消し、それぞれの最適化プロセスを保証する。
最後に、多種類のモーダル性、タスク、および密接な相互モーダル相互作用を持つフレームワークに関する広範な実験により、提案したDGLの有効性と汎用性を示す。
コードは \href{https://github.com/shicaiwei123/ICCV2025-GDL}{https://github.com/shicaiwei123/ICCV2025-GDL} で公開されている。
関連論文リスト
- G$^{2}$D: Boosting Multimodal Learning with Gradient-Guided Distillation [0.7673339435080445]
本稿では, カスタマイズされた損失関数を持つマルチモーダルモデルを最適化する知識蒸留フレームワークであるGradient-Guided Distillation (G$2$D)を紹介する。
G$2$Dは、訓練中に弱いモダリティの重要度を増幅し、分類および回帰タスクにおける最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-06-26T17:37:36Z) - Improving Multimodal Learning Balance and Sufficiency through Data Remixing [14.282792733217653]
弱いモダリティを強制する方法は、単調な充足性とマルチモーダルなバランスを達成できない。
マルチモーダルデータのデカップリングや,各モーダルに対するハードサンプルのフィルタリングなど,モダリティの不均衡を軽減するマルチモーダルデータリミックスを提案する。
提案手法は既存の手法とシームレスに統合され,CREMADでは約6.50%$uparrow$,Kineetic-Soundsでは3.41%$uparrow$の精度が向上する。
論文 参考訳(メタデータ) (2025-06-13T08:01:29Z) - Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。