論文の概要: Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning
- arxiv url: http://arxiv.org/abs/2510.21797v2
- Date: Wed, 29 Oct 2025 06:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 13:34:45.429979
- Title: Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning
- Title(参考訳): マルチモーダル不均衡の定量化:GMM誘導型オーディオ・ビジュアル・ラーニング用適応損失
- Authors: Zhaocheng Liu, Zhiwen Yu, Xiaoqing Liu,
- Abstract要約: 既存のソリューションは主に最適化やデータベースの戦略に重点を置いているが、マルチモーダル不均衡に固有の情報を活用することは滅多にない。
マルチモーダルインバランスのための新しい定量的分析フレームワークを提案し,サンプルレベルの適応損失関数を設計する。
- 参考スコア(独自算出の注目度): 12.236332735708473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The heterogeneity of multimodal data leads to inconsistencies and imbalance, allowing a dominant modality to steer gradient updates. Existing solutions mainly focus on optimization- or data-based strategies but rarely exploit the information inherent in multimodal imbalance or conduct its quantitative analysis. To address this gap, we propose a novel quantitative analysis framework for Multimodal Imbalance and design a sample-level adaptive loss function. We define the Modality Gap as the Softmax score difference between modalities for the correct class and model its distribution using a bimodal Gaussian Mixture Model(GMM), representing balanced and imbalanced samples. Using Bayes' theorem, we estimate each sample's posterior probability of belonging to these two groups. Based on this, our adaptive loss (1) minimizes the overall Modality Gap, (2) aligns imbalanced samples with balanced ones, and (3) adaptively penalizes each according to its imbalance degree. A two-stage training strategy-warm-up and adaptive phases,yields state-of-the-art performance on CREMA-D (80.65%), AVE (70.40%), and KineticSound (72.42%). Fine-tuning with high-quality samples identified by the GMM further improves results, highlighting their value for effective multimodal fusion.
- Abstract(参考訳): マルチモーダルデータの異質性は不整合と不均衡をもたらし、支配的なモダリティが勾配を更新することを可能にする。
既存のソリューションは主に最適化やデータベースの戦略に重点を置いているが、マルチモーダル不均衡に固有の情報を活用したり、その定量的分析を行うことは滅多にない。
このギャップに対処するために,マルチモーダルインバランスのための新しい定量的分析フレームワークを提案し,サンプルレベルの適応損失関数を設計する。
両モードガウス混合モデル (GMM) を用いて, 正クラスに対するモダリティのソフトマックススコア差と分布のモデルとして, バランスの取れたサンプルと不均衡なサンプルを表現した。
ベイズの定理を用いて、これらの2つの群に属する各サンプルの後方確率を推定する。
これに基づいて、適応損失(1)は全体モダリティギャップを最小化し、(2)不均衡なサンプルとバランスの取れたサンプルをアライメントし、(3)不均衡度に応じてそれぞれを適応的にペナライズする。
2段階のトレーニング戦略・ウォームアップ・アダプティブフェーズでは、CREMA-D(80.65%)、AV(70.40%)、KineeticSound(72.42%)で最先端のパフォーマンスを達成している。
GMMによって同定された高品質な試料による微調整は、その結果をさらに改善し、効果的なマルチモーダル核融合に対するそれらの価値を強調している。
関連論文リスト
- Revisit Modality Imbalance at the Decision Layer [11.94300606032047]
マルチモーダル学習は、異なるモーダルからの情報を統合し、モデル性能を向上させる。
しばしばモダリティの不均衡に悩まされ、ジョイント最適化の間、支配的なモダリティは弱いモダリティを覆い隠す。
本稿では,表現学習において,このような不均衡が生じるだけでなく,決定層にも顕著に現れることを明らかにする。
論文 参考訳(メタデータ) (2025-10-16T08:11:24Z) - Importance Weighted Score Matching for Diffusion Samplers with Enhanced Mode Coverage [16.94974733994214]
一般的な手法では、逆KLベースの目的を最適化することで、ターゲットデータの欠如を回避できることが多い。
そこで本研究では,KLの分岐に類似した目的を直接ターゲットとした拡散型サンプリング器の訓練手法を提案する。
我々のアプローチは、すべての分布距離のメトリクスで既存のニューラルサンプリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-26T02:48:26Z) - Balance-aware Sequence Sampling Makes Multi-modal Learning Better [0.5439020425819]
MMLのロバスト性を高めるために,バランス対応シーケンスサンプリング(BSS)を提案する。
マルチパースペクティブ測定器を用いて,まず,各試料のバランス度を評価するための多パースペクティブ測定器を定義する。
カリキュラム学習(CL)に基づくスケジューラを用いて、バランスのとれたサンプルからバランスのとれたサンプルまで、段階的にトレーニングサブセットを提供する。
論文 参考訳(メタデータ) (2025-01-01T06:19:55Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Adaptive Weighted Co-Learning for Cross-Domain Few-Shot Learning [23.615250207134004]
クロスドメイン少ショット学習(CDFSL)は、非常に困難な適応問題を引き起こす。
適応重み付き共学習法(AWCoL)を提案し,CDFSL問題に対処する。
複数のベンチマークデータセットに対して総合的な実験を行い,提案手法が最先端のCDFSL性能を実現することを示す実証実験を行った。
論文 参考訳(メタデータ) (2023-12-06T22:09:52Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Causal Balancing for Domain Generalization [95.97046583437145]
そこで本研究では,観察されたトレーニング分布の領域特異的なスプリアス相関を低減するために,バランスの取れたミニバッチサンプリング戦略を提案する。
本研究では, 突発性源の同定可能性を保証するとともに, バランスの取れた, 突発性のない分布から, 提案手法が有効にサンプリング可能であることを示す。
論文 参考訳(メタデータ) (2022-06-10T17:59:11Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。