論文の概要: See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias
- arxiv url: http://arxiv.org/abs/2503.13834v1
- Date: Tue, 18 Mar 2025 02:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:13.240769
- Title: See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias
- Title(参考訳): シーソーモダリティバランス:支配的モダリティバイアスを軽減するために、グラディエントとSewの視覚ランゲージバランスを損なう
- Authors: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim,
- Abstract要約: 視覚言語(VL)モデルは、しばしば予測に特定のモダリティに依存し、「支配的なモダリティバイアス」をもたらす。
支配的モダリティバイアスを軽減するための新しいフレームワークであるBalGradを提案する。
UPMC Food-101、Hateful Memes、MM-IMDbデータセットの実験により、BalGradは予測を行う際に特定のモダリティに対する過度な信頼を効果的に緩和することを確認した。
- 参考スコア(独自算出の注目度): 7.769664248755815
- License:
- Abstract: Vision-language (VL) models have demonstrated strong performance across various tasks. However, these models often rely on a specific modality for predictions, leading to "dominant modality bias.'' This bias significantly hurts performance, especially when one modality is impaired. In this study, we analyze model behavior under dominant modality bias and theoretically show that unaligned gradients or differences in gradient magnitudes prevent balanced convergence of the loss. Based on these findings, we propose a novel framework, BalGrad to mitigate dominant modality bias. Our approach includes inter-modality gradient reweighting, adjusting the gradient of KL divergence based on each modality's contribution, and inter-task gradient projection to align task directions in a non-conflicting manner. Experiments on UPMC Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively alleviates over-reliance on specific modalities when making predictions.
- Abstract(参考訳): 視覚言語(VL)モデルは様々なタスクで強い性能を示している。
しかしながら、これらのモデルは予測に特定のモダリティに依存することが多く、「支配的なモダリティバイアス」をもたらす。
「」このバイアスは、特に1つのモダリティが損なわれている場合、パフォーマンスを著しく損なう。
本研究では,支配的モダリティバイアス下でのモデル挙動を解析し,不整合勾配や勾配等級差が損失の均衡収束を妨げていることを理論的に示す。
これらの知見に基づいて、支配的なモダリティバイアスを軽減する新しいフレームワークであるBalGradを提案する。
提案手法は、モーダリティ間の勾配再重み付け、各モーダリティの寄与に基づくKL分散の勾配調整、タスク方向を非複雑に整列させるタスク間勾配投影を含む。
UPMC Food-101、Hateful Memes、MM-IMDbデータセットの実験により、BalGradは予測を行う際に特定のモダリティに対する過度な信頼を効果的に緩和することを確認した。
関連論文リスト
- Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation [3.328448170090945]
適応的なステップを持つグラディエントDescent(SGD)は、ディープニューラルネットワークと生成モデルのトレーニングに広く使用されている。
本稿では,勾配関数に対するバイアスの影響を包括的に分析する。
論文 参考訳(メタデータ) (2024-02-05T10:17:36Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Calibrating Segmentation Networks with Margin-based Label Smoothing [19.669173092632]
現状のキャリブレーション損失に対する統一的制約最適化の視点を提供する。
これらの損失は、ロジット距離に等しい制約を課す線形ペナルティの近似と見なすことができる。
我々は不等式制約に基づく単純で柔軟な一般化を提案し、ロジット距離に制御可能なマージンを課す。
論文 参考訳(メタデータ) (2022-09-09T20:21:03Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - The Devil is in the Margin: Margin-based Label Smoothing for Network
Calibration [21.63888208442176]
ディープニューラルネットワークの優位な性能にもかかわらず、最近の研究では、それらが十分に校正されていないことが示されている。
現状のキャリブレーション損失に対する統一的制約最適化の視点を提供する。
我々は不等式制約に基づく単純で柔軟な一般化を提案し、ロジット距離に制御可能なマージンを課す。
論文 参考訳(メタデータ) (2021-11-30T14:21:47Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。