論文の概要: MCE: Towards a General Framework for Handling Missing Modalities under Imbalanced Missing Rates
- arxiv url: http://arxiv.org/abs/2510.10534v1
- Date: Sun, 12 Oct 2025 10:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.995245
- Title: MCE: Towards a General Framework for Handling Missing Modalities under Imbalanced Missing Rates
- Title(参考訳): MCE:不均衡な欠落率下での欠落を取り扱うための一般的な枠組みを目指して
- Authors: Binyu Zhao, Wei Zhang, Zhaonian Zou,
- Abstract要約: マルチモーダル学習は多種多様なパターン認識アプリケーションにおいて大きな進歩を遂げている。
モダリティの欠如、特に不均衡な失業率で対処することは、依然として大きな課題です。
本稿では,これらの制約に対処するためのモダリティ・キャパシティ・エンハンスメント(MCE)を提案する。
- 参考スコア(独自算出の注目度): 5.554190182819137
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-modal learning has made significant advances across diverse pattern recognition applications. However, handling missing modalities, especially under imbalanced missing rates, remains a major challenge. This imbalance triggers a vicious cycle: modalities with higher missing rates receive fewer updates, leading to inconsistent learning progress and representational degradation that further diminishes their contribution. Existing methods typically focus on global dataset-level balancing, often overlooking critical sample-level variations in modality utility and the underlying issue of degraded feature quality. We propose Modality Capability Enhancement (MCE) to tackle these limitations. MCE includes two synergistic components: i) Learning Capability Enhancement (LCE), which introduces multi-level factors to dynamically balance modality-specific learning progress, and ii) Representation Capability Enhancement (RCE), which improves feature semantics and robustness through subset prediction and cross-modal completion tasks. Comprehensive evaluations on four multi-modal benchmarks show that MCE consistently outperforms state-of-the-art methods under various missing configurations. The journal preprint version is now available at https://doi.org/10.1016/j.patcog.2025.112591. Our code is available at https://github.com/byzhaoAI/MCE.
- Abstract(参考訳): マルチモーダル学習は多種多様なパターン認識アプリケーションにおいて大きな進歩を遂げている。
しかし、特に不均衡な失業率の下で、欠落したモダリティを扱うことは、依然として大きな課題である。
欠落率の高いモダリティは更新を減らし、一貫性のない学習の進歩と表現力の低下を招き、貢献をさらに減少させる。
既存の手法は通常、グローバルなデータセットレベルのバランスに重点を置いており、しばしばモダリティユーティリティのクリティカルなサンプルレベルのバリエーションと、機能品質の劣化の根底にある問題を見落としている。
本稿では,これらの制約に対処するためのモダリティ・キャパシティ・エンハンスメント(MCE)を提案する。
MCEには2つの相乗的要素がある。
一 モダリティ固有の学習の進捗を動的にバランスさせる多段階的要素を導入する学習能力向上(LCE)
二 表現能力向上(Representation Capability Enhancement, RCE)は、サブセット予測とクロスモーダル完了タスクにより特徴的セマンティクス及びロバスト性を向上させる。
4つのマルチモーダルベンチマークの総合的な評価は、MCEが様々な不足した構成の下で、常に最先端の手法より優れていることを示している。
ジャーナル・プレプリント版はhttps://doi.org/10.1016/j.patcog.2025.112591で入手できる。
私たちのコードはhttps://github.com/byzhaoAI/MCEで公開されています。
関連論文リスト
- AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning [55.56234913868664]
そこで我々は,適応型ネットワーク内変調(AIM)を提案し,バランスの取れたモダリティ学習を改善する。
AIMは、変調中のネットワーク内のパラメータと深さの最適化状態の違いを考慮に入れている。
AIMは、複数のベンチマークにおいて、最先端の非バランスなモダリティ学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-27T10:53:36Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。