論文の概要: Diagnosing and Re-learning for Balanced Multimodal Learning
- arxiv url: http://arxiv.org/abs/2407.09705v1
- Date: Fri, 12 Jul 2024 22:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:08:36.049331
- Title: Diagnosing and Re-learning for Balanced Multimodal Learning
- Title(参考訳): バランスの取れたマルチモーダル学習のための診断と再学習
- Authors: Yake Wei, Siwei Li, Ruoxuan Feng, Di Hu,
- Abstract要約: 本稿では,不均衡なマルチモーダル学習問題を克服するための診断・再学習手法を提案する。
各モードの学習状態は、その一様表現空間の分離性に基づいて推定される。
このように、少ない情報モダリティの過度な強調は避けられる。
- 参考スコア(独自算出の注目度): 8.779005254634857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To overcome the imbalanced multimodal learning problem, where models prefer the training of specific modalities, existing methods propose to control the training of uni-modal encoders from different perspectives, taking the inter-modal performance discrepancy as the basis. However, the intrinsic limitation of modality capacity is ignored. The scarcely informative modalities can be recognized as ``worse-learnt'' ones, which could force the model to memorize more noise, counterproductively affecting the multimodal model ability. Moreover, the current modality modulation methods narrowly concentrate on selected worse-learnt modalities, even suppressing the training of others. Hence, it is essential to consider the intrinsic limitation of modality capacity and take all modalities into account during balancing. To this end, we propose the Diagnosing \& Re-learning method. The learning state of each modality is firstly estimated based on the separability of its uni-modal representation space, and then used to softly re-initialize the corresponding uni-modal encoder. In this way, the over-emphasizing of scarcely informative modalities is avoided. In addition, encoders of worse-learnt modalities are enhanced, simultaneously avoiding the over-training of other modalities. Accordingly, multimodal learning is effectively balanced and enhanced. Experiments covering multiple types of modalities and multimodal frameworks demonstrate the superior performance of our simple-yet-effective method for balanced multimodal learning. The source code and dataset are available at \url{https://github.com/GeWu-Lab/Diagnosing_Relearning_ECCV2024}.
- Abstract(参考訳): モデルが特定のモダリティのトレーニングを好む不均衡なマルチモーダル学習問題を克服するため、既存の手法では、異なる視点からユニモーダルエンコーダのトレーニングを制御し、モーダル間性能の相違を基礎として提案する。
しかし、モダリティキャパシティの本質的な制限は無視される。
少ない情報的モダリティは ``worse-learnt'' と認識できるため、モデルにより多くのノイズを記憶させ、非生産的にマルチモーダルモデルの能力に影響を与える可能性がある。
さらに、現在のモダリティ変調法は、選択された劣悪な学習モダリティに狭く集中し、他者の訓練を抑える。
したがって、モダリティキャパシティの本質的な制限を考慮し、バランスをとる際にすべてのモダリティを考慮することが不可欠である。
そこで本研究では,診断と再学習の手法を提案する。
まず、そのユニモーダル表現空間の分離性に基づいて各モーダルの学習状態を推定し、それに対応するユニモーダルエンコーダをソフトに初期化するために使用する。
このように、少ない情報モダリティの過度な強調は避けられる。
さらに、低遅延モードのエンコーダが強化され、他のモードの過度なトレーニングが回避される。
したがって、マルチモーダル学習は効果的にバランスを保ち、強化される。
複数種類のモダリティとマルチモーダルフレームワークを網羅した実験は、バランスの取れたマルチモーダル学習において、単純なyet効率の手法の優れた性能を示す。
ソースコードとデータセットは \url{https://github.com/GeWu-Lab/Diagnosing_Relearning_ECCV2024} で公開されている。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Modality-Balanced Learning for Multimedia Recommendation [21.772064939915214]
本稿では,不均衡問題を解消し,全てのモダリティを最大限に活用するための対実的知識蒸留法を提案する。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-26T07:53:01Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。