論文の概要: Revisit Modality Imbalance at the Decision Layer
- arxiv url: http://arxiv.org/abs/2510.14411v1
- Date: Thu, 16 Oct 2025 08:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.773033
- Title: Revisit Modality Imbalance at the Decision Layer
- Title(参考訳): 決定層におけるモダリティの不均衡の再検討
- Authors: Xiaoyu Ma, Hao Chen,
- Abstract要約: マルチモーダル学習は、異なるモーダルからの情報を統合し、モデル性能を向上させる。
しばしばモダリティの不均衡に悩まされ、ジョイント最適化の間、支配的なモダリティは弱いモダリティを覆い隠す。
本稿では,表現学習において,このような不均衡が生じるだけでなく,決定層にも顕著に現れることを明らかにする。
- 参考スコア(独自算出の注目度): 11.94300606032047
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal learning integrates information from different modalities to enhance model performance, yet it often suffers from modality imbalance, where dominant modalities overshadow weaker ones during joint optimization. This paper reveals that such an imbalance not only occurs during representation learning but also manifests significantly at the decision layer. Experiments on audio-visual datasets (CREMAD and Kinetic-Sounds) show that even after extensive pretraining and balanced optimization, models still exhibit systematic bias toward certain modalities, such as audio. Further analysis demonstrates that this bias originates from intrinsic disparities in feature-space and decision-weight distributions rather than from optimization dynamics alone. We argue that aggregating uncalibrated modality outputs at the fusion stage leads to biased decision-layer weighting, hindering weaker modalities from contributing effectively. To address this, we propose that future multimodal systems should focus more on incorporate adaptive weight allocation mechanisms at the decision layer, enabling relative balanced according to the capabilities of each modality.
- Abstract(参考訳): マルチモーダル学習は、異なるモダリティからの情報を統合してモデル性能を向上させるが、しばしばモダリティの不均衡に悩まされる。
本稿では,表現学習中に発生する不均衡だけでなく,決定層にも顕著に現れることを明らかにする。
オーディオ・ヴィジュアルデータセット(CREMADとKineetic-Sounds)の実験では、大規模な事前訓練とバランスの取れた最適化の後も、モデルはオーディオのような特定のモーダルに対する体系的なバイアスを示す。
さらなる分析により、このバイアスは最適化力学のみではなく、特徴空間と決定重み分布の本質的な相違に由来することが示される。
融合段階での非平衡なモダリティ出力の集約は、偏りのある決定層重み付けを引き起こし、より弱いモダリティが効果的に寄与することを妨げていると論じる。
そこで本研究では, 将来のマルチモーダルシステムにおいて, 適応重み付け機構を決定層に組み込むことに重点を置き, 各モーダルの能力に応じて相対的バランスをとることを提案する。
関連論文リスト
- AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning [55.56234913868664]
そこで我々は,適応型ネットワーク内変調(AIM)を提案し,バランスの取れたモダリティ学習を改善する。
AIMは、変調中のネットワーク内のパラメータと深さの最適化状態の違いを考慮に入れている。
AIMは、複数のベンチマークにおいて、最先端の非バランスなモダリティ学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-27T10:53:36Z) - Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning [15.524342129628957]
DynCIMは、サンプルとモダリティの両方の観点から固有の不均衡を定量化するために設計された、新しい動的カリキュラム学習フレームワークである。
DynCIMは、予測偏差、一貫性、安定性に応じて各サンプルの難易度を動的に評価するために、サンプルレベルのカリキュラムを使用している。
モダリティレベルのカリキュラムは、グローバルおよびローカルからのモダリティ貢献を測定する。
論文 参考訳(メタデータ) (2025-03-09T05:30:15Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Balanced Audiovisual Dataset for Imbalance Analysis [31.510912639133014]
不均衡問題は機械学習の分野で広く知られており、マルチモーダル学習領域にも存在している。
最近の研究はアルゴリズムの観点からモダリティの不均衡問題を解こうとしているが、データセットにおけるモダリティバイアスの影響を完全には分析していない。
論文 参考訳(メタデータ) (2023-02-14T15:35:17Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。