論文の概要: MILES: Modality-Informed Learning Rate Scheduler for Balancing Multimodal Learning
- arxiv url: http://arxiv.org/abs/2510.17394v1
- Date: Mon, 20 Oct 2025 10:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.412685
- Title: MILES: Modality-Informed Learning Rate Scheduler for Balancing Multimodal Learning
- Title(参考訳): MILES:マルチモーダル学習のバランスをとるためのモダリティインフォームド・ラーニング・レート・スケジューラ
- Authors: Alejandro Guerra-Manzanares, Farah E. Shamout,
- Abstract要約: MILES (Modality-Informed Learning RatE Scheduler) を多モード関節融合モデルの訓練用として提案する。
MILESは、マルチモーダル学習を効果的にバランスさせるために、トレーニング中のモダリティワイド条件付き利用率のバランスをとる。
MILESは,本研究で検討した全タスクおよび融合法において,すべてのベースラインに優れることを示す。
- 参考スコア(独自算出の注目度): 47.487732221767196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of multimodal neural networks is to combine diverse data sources, referred to as modalities, to achieve enhanced performance compared to relying on a single modality. However, training of multimodal networks is typically hindered by modality overfitting, where the network relies excessively on one of the available modalities. This often yields sub-optimal performance, hindering the potential of multimodal learning and resulting in marginal improvements relative to unimodal models. In this work, we present the Modality-Informed Learning ratE Scheduler (MILES) for training multimodal joint fusion models in a balanced manner. MILES leverages the differences in modality-wise conditional utilization rates during training to effectively balance multimodal learning. The learning rate is dynamically adjusted during training to balance the speed of learning from each modality by the multimodal model, aiming for enhanced performance in both multimodal and unimodal predictions. We extensively evaluate MILES on four multimodal joint fusion tasks and compare its performance to seven state-of-the-art baselines. Our results show that MILES outperforms all baselines across all tasks and fusion methods considered in our study, effectively balancing modality usage during training. This results in improved multimodal performance and stronger modality encoders, which can be leveraged when dealing with unimodal samples or absent modalities. Overall, our work highlights the impact of balancing multimodal learning on improving model performance.
- Abstract(参考訳): マルチモーダルニューラルネットワークの目的は、モダリティと呼ばれる多様なデータソースを組み合わせて、単一のモダリティに依存するよりも高いパフォーマンスを実現することである。
しかし、マルチモーダルネットワークのトレーニングは、ネットワークが利用可能なモダリティの1つに過度に依存するモダリティオーバーフィッティングによって妨げられるのが一般的である。
これはしばしば準最適性能をもたらし、マルチモーダル学習の可能性を阻害し、ユニモーダルモデルに対する限界改善をもたらす。
本研究では,MILES(Modality-Informed Learning RatE Scheduler)を用いて,マルチモーダルジョイントフュージョンモデルをバランスよく訓練する。
MILESは、マルチモーダル学習を効果的にバランスさせるために、トレーニング中のモーダルワイズ条件付き利用率の違いを利用する。
学習速度は、マルチモーダルモデルにより各モーダルからの学習速度のバランスをとるために、トレーニング中に動的に調整され、マルチモーダル予測と非モーダル予測の両方のパフォーマンスの向上を目的としている。
我々は,MILESを4つのマルチモーダルジョイントフュージョンタスクで広範囲に評価し,その性能を7つの最先端ベースラインと比較した。
以上の結果から,MILESは全タスクのベースラインと,本研究で考慮した核融合法に優れており,トレーニング中のモダリティ利用のバランスが効果的であることがわかった。
これにより、マルチモーダル性能が向上し、より強力なモーダルエンコーダが実現される。
全体的な研究は、マルチモーダル学習のバランスがモデルパフォーマンス改善に与える影響を強調しています。
関連論文リスト
- Balancing Multimodal Training Through Game-Theoretic Regularization [26.900302082724295]
マルチモーダル学習は、データソース間の依存関係をキャプチャすることで、よりリッチな情報抽出を約束する。
しかし、現在のトレーニング手法は、しばしばモダリティの競争によって性能が低下する。
本稿では、相互情報分解(MI)に触発されたMCR(Multimodal Competition Regularizer)を提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。
性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。
提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-14T10:32:16Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Towards Balanced Active Learning for Multimodal Classification [15.338417969382212]
マルチモーダルネットワークのトレーニングには、ユニモーダルネットワークと比較してパラメータ空間が大きいため、膨大な量のデータが必要である。
アクティブラーニングは、モデルの性能向上に寄与するサンプルのみを選択することで、データアノテーションコストを削減するために広く使われているテクニックである。
現在のアクティブラーニング戦略は、主に一助的なタスクのために設計されており、マルチモーダルデータに適用すると、支配的なモダリティからのサンプル選択にバイアスがかかることがしばしばある。
論文 参考訳(メタデータ) (2023-06-14T07:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。