論文の概要: Balancing Multimodal Domain Generalization via Gradient Modulation and Projection
- arxiv url: http://arxiv.org/abs/2603.14175v1
- Date: Sun, 15 Mar 2026 01:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.649677
- Title: Balancing Multimodal Domain Generalization via Gradient Modulation and Projection
- Title(参考訳): 勾配変調と投影によるマルチモーダル領域一般化のバランシング
- Authors: Hongzhao Li, Guohao Shen, Shupan Li, Mingliang Xu, Muhammad Haris Khan,
- Abstract要約: マルチモーダルドメイン一般化(MMDG)は、複数のモダリティの相補的な強みを利用して、目に見えないドメインのモデル一般化を強化する。
我々はMDGのバランス最適化を促進する統一戦略であるGMP(Gradient Modulation Projection)を提案する。
GMPは最先端の性能を達成し、多様なMDDGメソッドと柔軟に統合し、複数のベンチマークでの一般化を大幅に改善する。
- 参考スコア(独自算出の注目度): 36.27117373772676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Domain Generalization (MMDG) leverages the complementary strengths of multiple modalities to enhance model generalization on unseen domains. A central challenge in multimodal learning is optimization imbalance, where modalities converge at different speeds during training. This imbalance leads to unequal gradient contributions, allowing some modalities to dominate the learning process while others lag behind. Existing balancing strategies typically regulate each modality's gradient contribution based on its classification performance on the source domain to alleviate this issue. However, relying solely on source-domain accuracy neglects a key insight in MMDG: modalities that excel on the source domain may generalize poorly to unseen domains, limiting cross-domain gains. To overcome this limitation, we propose Gradient Modulation Projection (GMP), a unified strategy that promotes balanced optimization in MMDG. GMP first decouples gradients associated with classification and domain-invariance objectives. It then modulates each modality's gradient based on semantic and domain confidence. Moreover, GMP dynamically adjusts gradient projections by tracking the relative strength of each task, mitigating conflicts between classification and domain-invariant learning within modality-specific encoders. Extensive experiments demonstrate that GMP achieves state-of-the-art performance and integrates flexibly with diverse MMDG methods, significantly improving generalization across multiple benchmarks.
- Abstract(参考訳): マルチモーダルドメイン一般化(MMDG)は、複数のモダリティの相補的な強みを利用して、目に見えないドメインのモデル一般化を強化する。
マルチモーダル学習における中心的な課題は最適化の不均衡であり、トレーニング中にモダリティは異なる速度で収束する。
この不均衡は、不平等な勾配の寄与をもたらし、あるモダリティが学習プロセスを支配し、他のモダリティが遅れることを可能にします。
既存のバランス戦略は、典型的には、この問題を軽減するためにソースドメイン上の分類性能に基づいて、各モダリティの勾配コントリビューションを規制する。
しかし、ソースドメインの精度のみに依存することは、MDDGの重要な洞察を無視している。
この制限を克服するために,MDGのバランス最適化を促進する統一戦略であるGMP(Gradient Modulation Projection)を提案する。
GMPは、分類と領域不変性に関連する勾配を最初に分離する。
次に、各モダリティの勾配を意味とドメインの信頼度に基づいて変調する。
さらに、GMPは、各タスクの相対的強度を追跡することによって勾配予測を動的に調整し、モダリティ固有エンコーダ内の分類とドメイン不変学習の競合を緩和する。
大規模な実験により、GMPは最先端の性能を達成し、多様なMDDG手法と柔軟に統合し、複数のベンチマークでの一般化を著しく改善した。
関連論文リスト
- Modality-Balanced Collaborative Distillation for Multi-Modal Domain Generalization [72.83292830785336]
ウェイト平均化 (WA) は, 平坦な損失景観への収束を促進することによって, 一般化を促進する強力な手法として登場した。
マルチモーダル環境での欠点を克服しつつ,WAの平坦性に起因した優位性を保ちつつ,統一的な共同蒸留フレームワークMBCDを提案する。
論文 参考訳(メタデータ) (2025-11-25T12:38:28Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Gradient-Guided Annealing for Domain Generalization [5.124256074746721]
ドメインの一般化効率を向上させるため,GGAアルゴリズムを提案する。
GGAの有効性は、広く受け入れられ、困難な画像分類領域の一般化ベンチマークで評価される。
論文 参考訳(メタデータ) (2025-02-27T15:01:55Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Causality-inspired Latent Feature Augmentation for Single Domain Generalization [13.735443005394773]
単一ドメインの一般化(Single-DG)は、単一のトレーニングドメインのみを持つ一般化可能なモデルを開発し、他の未知のターゲットドメインでうまく機能させることを目的としている。
ドメイン・ハングリー構成の下で、ソース・ドメインのカバレッジを拡大し、異なる分布にまたがる固有の因果的特徴を見つける方法がモデルの一般化能力を高める鍵となる。
本稿では、因果学習と介入に基づく特徴レベルの変換のメタ知識を学習することで、単一DGの因果性に着想を得た潜在機能拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T02:42:25Z) - NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。
私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。
この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。