論文の概要: Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement
- arxiv url: http://arxiv.org/abs/2506.00030v1
- Date: Mon, 26 May 2025 02:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.075739
- Title: Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement
- Title(参考訳): Modality Equilibrium matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement
- Authors: Xiang Shi, Rui Zhang, Jiawei Liu, Yinpeng Liu, Qikai Cheng, Wei Lu,
- Abstract要約: そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
- 参考スコア(独自算出の注目度): 13.424541949553964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fusion is susceptible to modality imbalance, where dominant modalities overshadow weak ones, easily leading to biased learning and suboptimal fusion, especially for incomplete modality conditions. To address this problem, we propose a Shapley-guided alternating training framework that adaptively prioritizes minor modalities to balance and thus enhance the fusion. Our method leverages Shapley Value-based scheduling to improve the training sequence adaptively, ensuring that under-optimized modalities receive sufficient learning. Additionally, we introduce the memory module to refine and inherit modality-specific representations with a cross-modal mapping mechanism to align features at both the feature and sample levels. To further validate the adaptability of the proposed approach, the encoder module empirically adopts both conventional and LLM-based backbones. With building up a novel multimodal equilibrium metric, namely, equilibrium deviation metric (EDM), we evaluate the performance in both balance and accuracy across four multimodal benchmark datasets, where our method achieves state-of-the-art (SOTA) results. Meanwhile, robustness analysis under missing modalities highlights its strong generalization capabilities. Accordingly, our findings reveal the untapped potential of alternating training, demonstrating that strategic modality prioritization fundamentally balances and promotes multimodal learning, offering a new paradigm for optimizing multimodal training dynamics.
- Abstract(参考訳): マルチモーダル融合は、支配的なモダリティが弱いモダリティを覆い隠すようなモダリティ不均衡の影響を受けやすく、特に不完全なモダリティ条件において、バイアスドラーニングや準最適融合につながる。
この問題に対処するために,小さなモダリティを適応的に優先順位付けしてバランスを保ち,融合を強化するShapley-Guided交互学習フレームワークを提案する。
提案手法では,Shapley値に基づくスケジューリングを利用してトレーニングシーケンスを適応的に改善し,過度に最適化されたモダリティが十分な学習を得られることを保証する。
さらに、メモリモジュールを導入して、モダリティ固有の表現を改良し、継承し、機能レベルとサンプルレベルの両方で特徴を整列するクロスモーダルマッピング機構を導入する。
提案手法の適応性をさらに検証するため,エンコーダモジュールは従来とLLMベースのバックボーンの両方を実証的に採用している。
平衡偏差測定(EDM)と呼ばれる新しいマルチモーダル均衡尺度を構築することにより、4つのマルチモーダルベンチマークデータセットのバランスと精度の両立を評価し,その手法がSOTA(State-of-the-art)結果を達成する。
一方、モダリティの欠如によるロバストネス解析は、その強力な一般化能力を強調している。
そこで本研究では,戦略的モダリティ優先順位付けが基本的バランスを保ち,マルチモーダル学習を促進することを示し,マルチモーダルトレーニングダイナミクスを最適化するための新たなパラダイムを提供する。
関連論文リスト
- DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning [15.524342129628957]
DynCIMは、サンプルとモダリティの両方の観点から固有の不均衡を定量化するために設計された、新しい動的カリキュラム学習フレームワークである。
DynCIMは、予測偏差、一貫性、安定性に応じて各サンプルの難易度を動的に評価するために、サンプルレベルのカリキュラムを使用している。
モダリティレベルのカリキュラムは、グローバルおよびローカルからのモダリティ貢献を測定する。
論文 参考訳(メタデータ) (2025-03-09T05:30:15Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Balance-aware Sequence Sampling Makes Multi-modal Learning Better [0.5439020425819]
MMLのロバスト性を高めるために,バランス対応シーケンスサンプリング(BSS)を提案する。
マルチパースペクティブ測定器を用いて,まず,各試料のバランス度を評価するための多パースペクティブ測定器を定義する。
カリキュラム学習(CL)に基づくスケジューラを用いて、バランスのとれたサンプルからバランスのとれたサンプルまで、段階的にトレーニングサブセットを提供する。
論文 参考訳(メタデータ) (2025-01-01T06:19:55Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Multimodal Classification via Modal-Aware Interactive Enhancement [6.621745547882088]
モーダル・アウェア・インタラクティブ・エンハンスメント(MIE)と呼ばれる新しいマルチモーダル学習手法を提案する。
具体的には、まず、シャープネス認識最小化(SAM)に基づく最適化戦略を用いて、前フェーズにおける学習目標の円滑化を図る。
そこで, SAMの幾何学的性質の助けを借りて, 逆相における異なるモード間の影響を加味するための勾配修正戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:32:07Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。