論文の概要: DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning
- arxiv url: http://arxiv.org/abs/2503.06456v1
- Date: Sun, 09 Mar 2025 05:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:57.540593
- Title: DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning
- Title(参考訳): DynCIM:不均衡なマルチモーダル学習のための動的カリキュラム
- Authors: Chengxuan Qian, Kai Han, Jingchao Wang, Zhenlong Yuan, Rui Qian, Chongwen Lyu, Jun Chen, Zhe Liu,
- Abstract要約: DynCIMは、サンプルとモダリティの両方の観点から固有の不均衡を定量化するために設計された、新しい動的カリキュラム学習フレームワークである。
DynCIMは、予測偏差、一貫性、安定性に応じて各サンプルの難易度を動的に評価するために、サンプルレベルのカリキュラムを使用している。
モダリティレベルのカリキュラムは、グローバルおよびローカルからのモダリティ貢献を測定する。
- 参考スコア(独自算出の注目度): 21.667176297489753
- License:
- Abstract: Multimodal learning integrates complementary information from diverse modalities to enhance the decision-making process. However, the potential of multimodal collaboration remains under-exploited due to disparities in data quality and modality representation capabilities. To address this, we introduce DynCIM, a novel dynamic curriculum learning framework designed to quantify the inherent imbalances from both sample and modality perspectives. DynCIM employs a sample-level curriculum to dynamically assess each sample's difficulty according to prediction deviation, consistency, and stability, while a modality-level curriculum measures modality contributions from global and local. Furthermore, a gating-based dynamic fusion mechanism is introduced to adaptively adjust modality contributions, minimizing redundancy and optimizing fusion effectiveness. Extensive experiments on six multimodal benchmarking datasets, spanning both bimodal and trimodal scenarios, demonstrate that DynCIM consistently outperforms state-of-the-art methods. Our approach effectively mitigates modality and sample imbalances while enhancing adaptability and robustness in multimodal learning tasks. Our code is available at https://github.com/Raymond-Qiancx/DynCIM.
- Abstract(参考訳): マルチモーダル学習は、様々なモダリティからの相補的な情報を統合し、意思決定プロセスを強化する。
しかし、データ品質とモダリティ表現能力の相違により、マルチモーダルなコラボレーションの可能性は未解決のままである。
そこで我々はDynCIMを紹介する。DynCIMは、サンプルとモダリティの両方の観点から固有の不均衡を定量化する新しい動的カリキュラム学習フレームワークである。
DynCIMは、サンプルレベルのカリキュラムを使用して、予測偏差、一貫性、安定性に応じて各サンプルの難易度を動的に評価し、一方、モダリティレベルのカリキュラムは、グローバルおよびローカルからのモダリティ貢献を測定する。
さらに、モダリティの寄与を適応的に調整し、冗長性を最小化し、融合効率を最適化するゲーティングベースの動的融合機構を導入する。
バイモーダルシナリオとトリモーダルシナリオの両方にまたがる6つのマルチモーダルベンチマークデータセットに関する大規模な実験は、DynCIMが一貫して最先端の手法より優れていることを示した。
本手法は,マルチモーダル学習タスクにおける適応性と頑健性を高めつつ,モダリティとサンプルの不均衡を効果的に軽減する。
私たちのコードはhttps://github.com/Raymond-Qiancx/DynCIMで利用可能です。
関連論文リスト
- PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Balance-aware Sequence Sampling Makes Multi-modal Learning Better [0.5439020425819]
MMLのロバスト性を高めるために,バランス対応シーケンスサンプリング(BSS)を提案する。
マルチパースペクティブ測定器を用いて,まず,各試料のバランス度を評価するための多パースペクティブ測定器を定義する。
カリキュラム学習(CL)に基づくスケジューラを用いて、バランスのとれたサンプルからバランスのとれたサンプルまで、段階的にトレーニングサブセットを提供する。
論文 参考訳(メタデータ) (2025-01-01T06:19:55Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Multimodal Classification via Modal-Aware Interactive Enhancement [6.621745547882088]
モーダル・アウェア・インタラクティブ・エンハンスメント(MIE)と呼ばれる新しいマルチモーダル学習手法を提案する。
具体的には、まず、シャープネス認識最小化(SAM)に基づく最適化戦略を用いて、前フェーズにおける学習目標の円滑化を図る。
そこで, SAMの幾何学的性質の助けを借りて, 逆相における異なるモード間の影響を加味するための勾配修正戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:32:07Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。