論文の概要: Modality-Balanced Learning for Multimedia Recommendation
- arxiv url: http://arxiv.org/abs/2408.06360v1
- Date: Fri, 26 Jul 2024 07:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 03:57:10.737737
- Title: Modality-Balanced Learning for Multimedia Recommendation
- Title(参考訳): マルチメディアレコメンデーションのためのModality-Balanced Learning
- Authors: Jinghao Zhang, Guofan Liu, Qiang Liu, Shu Wu, Liang Wang,
- Abstract要約: 本稿では,不均衡問題を解消し,全てのモダリティを最大限に活用するための対実的知識蒸留法を提案する。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
- 参考スコア(独自算出の注目度): 21.772064939915214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recommender models have been proposed to investigate how to incorporate multimodal content information into traditional collaborative filtering framework effectively. The use of multimodal information is expected to provide more comprehensive information and lead to superior performance. However, the integration of multiple modalities often encounters the modal imbalance problem: since the information in different modalities is unbalanced, optimizing the same objective across all modalities leads to the under-optimization problem of the weak modalities with a slower convergence rate or lower performance. Even worse, we find that in multimodal recommendation models, all modalities suffer from the problem of insufficient optimization. To address these issues, we propose a Counterfactual Knowledge Distillation method that could solve the imbalance problem and make the best use of all modalities. Through modality-specific knowledge distillation, it could guide the multimodal model to learn modality-specific knowledge from uni-modal teachers. We also design a novel generic-and-specific distillation loss to guide the multimodal student to learn wider-and-deeper knowledge from teachers. Additionally, to adaptively recalibrate the focus of the multimodal model towards weaker modalities during training, we estimate the causal effect of each modality on the training objective using counterfactual inference techniques, through which we could determine the weak modalities, quantify the imbalance degree and re-weight the distillation loss accordingly. Our method could serve as a plug-and-play module for both late-fusion and early-fusion backbones. Extensive experiments on six backbones show that our proposed method can improve the performance by a large margin. The source code will be released at \url{https://github.com/CRIPAC-DIG/Balanced-Multimodal-Rec}
- Abstract(参考訳): 従来の協調フィルタリングフレームワークにマルチモーダルコンテンツ情報を効果的に組み込む方法について,多くの推薦モデルが提案されている。
マルチモーダル情報の利用は、より包括的な情報を提供し、優れたパフォーマンスをもたらすことが期待されている。
しかし、複数のモダリティの統合はしばしばモダリティの不均衡問題に遭遇する: 異なるモダリティの情報が不均衡であるので、全てのモダリティで同じ目的を最適化することは、収束率が遅いか低い性能で弱モダリティの過小最適化問題につながる。
さらに悪いことに、マルチモーダルレコメンデーションモデルでは、全てのモダリティが最適化が不十分な問題に悩まされている。
これらの問題に対処するために,不均衡問題を解消し,全てのモダリティを最大限に活用できる対実的知識蒸留法を提案する。
モダリティ特化知識の蒸留を通じて、ユニモーダル教師からモダリティ特化知識を学ぶためのマルチモーダルモデルを導くことができる。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
さらに, トレーニング中の弱度度に対するマルチモーダルモデルの焦点を適応的に再検討するため, 各モーダルの因果効果を, 逆ファクト推論手法を用いて推定し, 弱度を判定し, 不均衡度を定量化し, 蒸留損失を加味した。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
6つのバックボーンの広範囲な実験により,提案手法は大きなマージンで性能を向上できることが示された。
ソースコードは \url{https://github.com/CRIPAC-DIG/Balanced-Multimodal-Rec} で公開される。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Diagnosing and Re-learning for Balanced Multimodal Learning [8.779005254634857]
本稿では,不均衡なマルチモーダル学習問題を克服するための診断・再学習手法を提案する。
各モードの学習状態は、その一様表現空間の分離性に基づいて推定される。
このように、少ない情報モダリティの過度な強調は避けられる。
論文 参考訳(メタデータ) (2024-07-12T22:12:03Z) - MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance [10.580712937465032]
従来無視されていた多モーダル学習目標と単モーダル学習目標との勾配の衝突を同定する。
MMParetoアルゴリズムを提案することで、学習目的に共通する方向の最終的な勾配を確保することができる。
また,タスクの難易度に明確な相違点のあるマルチタスクケースも容易に行えることが期待されている。
論文 参考訳(メタデータ) (2024-05-28T01:19:13Z) - Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning [12.00246872965739]
本稿では,事前学習型マルチモーダル大モデルを用いた動的自己適応型マルチスケール蒸留法を提案する。
我々の戦略は、事前訓練されたマルチモーダル大モデルから構造的知識を抽出できる、マルチスケールな視点を用いている。
提案手法は,出力特徴とオリジナル画像レベル情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化する。
論文 参考訳(メタデータ) (2024-04-16T18:22:49Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。