論文の概要: Modality-Balanced Collaborative Distillation for Multi-Modal Domain Generalization
- arxiv url: http://arxiv.org/abs/2511.20258v1
- Date: Tue, 25 Nov 2025 12:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.458293
- Title: Modality-Balanced Collaborative Distillation for Multi-Modal Domain Generalization
- Title(参考訳): 多モード領域一般化のためのモダリティベース協調蒸留法
- Authors: Xiaohan Wang, Zhangtao Cheng, Ting Zhong, Leiting Chen, Fan Zhou,
- Abstract要約: ウェイト平均化 (WA) は, 平坦な損失景観への収束を促進することによって, 一般化を促進する強力な手法として登場した。
マルチモーダル環境での欠点を克服しつつ,WAの平坦性に起因した優位性を保ちつつ,統一的な共同蒸留フレームワークMBCDを提案する。
- 参考スコア(独自算出の注目度): 72.83292830785336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight Averaging (WA) has emerged as a powerful technique for enhancing generalization by promoting convergence to a flat loss landscape, which correlates with stronger out-of-distribution performance. However, applying WA directly to multi-modal domain generalization (MMDG) is challenging: differences in optimization speed across modalities lead WA to overfit to faster-converging ones in early stages, suppressing the contribution of slower yet complementary modalities, thereby hindering effective modality fusion and skewing the loss surface toward sharper, less generalizable minima. To address this issue, we propose MBCD, a unified collaborative distillation framework that retains WA's flatness-inducing advantages while overcoming its shortcomings in multi-modal contexts. MBCD begins with adaptive modality dropout in the student model to curb early-stage bias toward dominant modalities. A gradient consistency constraint then aligns learning signals between uni-modal branches and the fused representation, encouraging coordinated and smoother optimization. Finally, a WA-based teacher conducts cross-modal distillation by transferring fused knowledge to each uni-modal branch, which strengthens cross-modal interactions and steer convergence toward flatter solutions. Extensive experiments on MMDG benchmarks show that MBCD consistently outperforms existing methods, achieving superior accuracy and robustness across diverse unseen domains.
- Abstract(参考訳): ウェイト平均化(WA)は, 配電性能の向上と相関する平坦な損失景観への収束を促進することによって, 一般化を促進する強力な手法として出現している。
しかし、WAを直接マルチモーダル領域一般化(MMDG)に適用することは困難であり、モダリティ間の最適化速度の違いにより、WAは早期により速く収束するものに過度に適合し、遅いが相補的なモダリティの寄与を抑え、効果的なモダリティ融合を阻害し、損失面をよりシャープでより一般化しにくいミニマに傾ける。
この問題に対処するために,マルチモーダルコンテキストにおける欠点を克服しつつ,WAの平坦性に起因した優位性を保ちつつ,統一的な共同蒸留フレームワークMBCDを提案する。
MBCDは、学生モデルにおける適応的なモダリティ・ドロップアウトから始まり、支配的なモダリティに対するアーリーステージの偏見を抑制する。
勾配一貫性制約は、一様分岐と融合表現の間で学習信号を整列させ、コーディネートとスムーズな最適化を促進する。
最後に、WAをベースとした教師は、融合した知識を各ユニモーダルブランチに伝達することで、クロスモーダル相互作用を強化し、平らな溶液へのステア収束を図り、クロスモーダル蒸留を行う。
MMDGベンチマークの大規模な実験により、MBCDは既存の手法を一貫して上回り、様々な未確認領域において優れた精度と堅牢性を達成している。
関連論文リスト
- Calibrated Multimodal Representation Learning with Missing Modalities [100.55774771852468]
マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。
最近の研究は、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要がある。
我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。
モーダルの欠如に起因する不完全なアライメントを校正するために,マルチモーダル表現学習のためのCalMRLを提案する。
論文 参考訳(メタデータ) (2025-11-15T05:01:43Z) - Adaptive Redundancy Regulation for Balanced Multimodal Information Refinement [49.596978957463385]
支配的モダリティの長期支配は、表現と出力の結合を弱める。
従来の手法はしばしば、有利なモジュラリティの勾配を直接的に均一に調整する。
バランスの取れたマルチモーダル情報リファインメントに対する適応冗長性制御を提案する。
論文 参考訳(メタデータ) (2025-11-14T04:44:34Z) - Robust Multimodal Semantic Segmentation with Balanced Modality Contributions [13.322334965026684]
モダリティの等価符号化によるモダリティ貢献のバランスをとるフレームワークであるEQUISegを提案する。
本研究では,EQUISegが性能向上を実現し,セグメンテーションタスクにおけるモダリティの不均衡の悪影響を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2025-09-29T09:19:10Z) - AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning [55.56234913868664]
そこで我々は,適応型ネットワーク内変調(AIM)を提案し,バランスの取れたモダリティ学習を改善する。
AIMは、変調中のネットワーク内のパラメータと深さの最適化状態の違いを考慮に入れている。
AIMは、複数のベンチマークにおいて、最先端の非バランスなモダリティ学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-27T10:53:36Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation [41.00894254469267]
textbfRepBlendという新しいMDDフレームワークを導入し,表現ブレンディングによるモダル間監督を弱める。
Flickr-30K と MS-COCO の実験では、RepBlend は最先端のMDD メソッドよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-05-16T03:00:56Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。