論文の概要: Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning
- arxiv url: http://arxiv.org/abs/2510.21797v1
- Date: Mon, 20 Oct 2025 15:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.521788
- Title: Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning
- Title(参考訳): マルチモーダル不均衡の定量化:GMM誘導型オーディオ・ビジュアル・ラーニング用適応損失
- Authors: Zhaocheng Liu, Zhiwen Yu, Xiaoqing Liu,
- Abstract要約: マルチモーダル不均衡に対処する現在の主流のアプローチは、主にアーキテクチャ修正と最適化に基づくものである。
マルチモーダル不均衡の定量的解析のための新しい手法を提案する。
我々は,(1)全体モダリティギャップを最小限に抑える,(2)不均衡なサンプル分布をバランスの取れたものにシフトさせる,(3)不均衡なサンプルにより大きなペナルティ重みを適用する,という3つの目的を持つ適応的損失関数を設計する。
- 参考スコア(独自算出の注目度): 12.236332735708473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current mainstream approaches to addressing multimodal imbalance primarily focus on architectural modifications and optimization-based, often overlooking a quantitative analysis of the imbalance degree between modalities. To address this gap, our work introduces a novel method for the quantitative analysis of multi-modal imbalance, which in turn informs the design of a sample-level adaptive loss function.We begin by defining the "Modality Gap" as the difference between the Softmax scores of different modalities (e.g., audio and visual) for the ground-truth class prediction. Analysis of the Modality Gap distribution reveals that it can be effectively modeled by a bimodal Gaussian Mixture Model (GMM). These two components are found to correspond respectively to "modality-balanced" and "modality-imbalanced" data samples. Subsequently, we apply Bayes' theorem to compute the posterior probability of each sample belonging to these two distinct distributions.Informed by this quantitative analysis, we design a novel adaptive loss function with three objectives: (1) to minimize the overall Modality Gap; (2) to encourage the imbalanced sample distribution to shift towards the balanced one; and (3) to apply greater penalty weights to imbalanced samples. We employ a two-stage training strategy consisting of a warm-up phase followed by an adaptive training phase.Experimental results demonstrate that our approach achieves state-of-the-art (SOTA) performance on the public CREMA-D and AVE datasets, attaining accuracies of $80.65\%$ and $70.90\%$, respectively. This validates the effectiveness of our proposed methodology.
- Abstract(参考訳): マルチモーダル不均衡に対処する現在の主流のアプローチは、主にアーキテクチャ修正と最適化に基づくもので、しばしばモダリティ間の不均衡度を定量的に分析することを見越す。
このギャップに対処するため,本研究では,多モード不均衡を定量的に解析する手法を導入し,サンプルレベルの適応的損失関数の設計を通知する。
モダリティギャップ分布の解析は、2モーダルガウス混合モデル(GMM)によって効果的にモデル化できることを明らかにする。
これら2つのコンポーネントはそれぞれ、"モダリティバランス"データサンプルと"モダリティバランス"データサンプルに対応している。
これら2つの異なる分布に属する各試料の後方確率を計算するためにベイズの定理を適用し,(1)全体モダリティギャップの最小化,(2)不均衡な試料分布の均衡化を促すこと,(3)不均衡な試料により大きなペナルティ重みを適用すること,の3つの目的を持つ適応的損失関数を設計した。
我々は,2段階のトレーニング戦略を,ウォームアップフェーズと適応トレーニングフェーズを併用して採用した。実験の結果,公共のCREMA-DデータセットとAVデータセット上でのSOTA(State-of-the-art)のパフォーマンスを達成し,それぞれ80.65\%と70.90\%の精度を達成できた。
これにより提案手法の有効性が検証される。
関連論文リスト
- Revisit Modality Imbalance at the Decision Layer [11.94300606032047]
マルチモーダル学習は、異なるモーダルからの情報を統合し、モデル性能を向上させる。
しばしばモダリティの不均衡に悩まされ、ジョイント最適化の間、支配的なモダリティは弱いモダリティを覆い隠す。
本稿では,表現学習において,このような不均衡が生じるだけでなく,決定層にも顕著に現れることを明らかにする。
論文 参考訳(メタデータ) (2025-10-16T08:11:24Z) - Importance Weighted Score Matching for Diffusion Samplers with Enhanced Mode Coverage [16.94974733994214]
一般的な手法では、逆KLベースの目的を最適化することで、ターゲットデータの欠如を回避できることが多い。
そこで本研究では,KLの分岐に類似した目的を直接ターゲットとした拡散型サンプリング器の訓練手法を提案する。
我々のアプローチは、すべての分布距離のメトリクスで既存のニューラルサンプリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-26T02:48:26Z) - Balance-aware Sequence Sampling Makes Multi-modal Learning Better [0.5439020425819]
MMLのロバスト性を高めるために,バランス対応シーケンスサンプリング(BSS)を提案する。
マルチパースペクティブ測定器を用いて,まず,各試料のバランス度を評価するための多パースペクティブ測定器を定義する。
カリキュラム学習(CL)に基づくスケジューラを用いて、バランスのとれたサンプルからバランスのとれたサンプルまで、段階的にトレーニングサブセットを提供する。
論文 参考訳(メタデータ) (2025-01-01T06:19:55Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Adaptive Weighted Co-Learning for Cross-Domain Few-Shot Learning [23.615250207134004]
クロスドメイン少ショット学習(CDFSL)は、非常に困難な適応問題を引き起こす。
適応重み付き共学習法(AWCoL)を提案し,CDFSL問題に対処する。
複数のベンチマークデータセットに対して総合的な実験を行い,提案手法が最先端のCDFSL性能を実現することを示す実証実験を行った。
論文 参考訳(メタデータ) (2023-12-06T22:09:52Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Causal Balancing for Domain Generalization [95.97046583437145]
そこで本研究では,観察されたトレーニング分布の領域特異的なスプリアス相関を低減するために,バランスの取れたミニバッチサンプリング戦略を提案する。
本研究では, 突発性源の同定可能性を保証するとともに, バランスの取れた, 突発性のない分布から, 提案手法が有効にサンプリング可能であることを示す。
論文 参考訳(メタデータ) (2022-06-10T17:59:11Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。