論文の概要: Modality-Aware SAM: Sharpness-Aware-Minimization Driven Gradient Modulation for Harmonized Multimodal Learning
- arxiv url: http://arxiv.org/abs/2510.24919v1
- Date: Tue, 28 Oct 2025 19:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.709334
- Title: Modality-Aware SAM: Sharpness-Aware-Minimization Driven Gradient Modulation for Harmonized Multimodal Learning
- Title(参考訳): モダリティを考慮したSAM:ハーモニゼーション型マルチモーダル学習のためのシャープネス最小化駆動型グラディエント変調
- Authors: Hossein R. Nowdeh, Jie Ji, Xiaolong Ma, Fatemeh Afghah,
- Abstract要約: Modality-Aware Sharpness-Aware Minimization (M-SAM)は、多くのモダリティに適用され、早期および後期の融合シナリオをサポートするモデルに依存しないフレームワークである。
4つの多様なデータセットに対する大規模な実験により、M-SAMは最新の最先端の最適化と勾配操作法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 19.588844325339355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multimodal learning, dominant modalities often overshadow others, limiting generalization. We propose Modality-Aware Sharpness-Aware Minimization (M-SAM), a model-agnostic framework that applies to many modalities and supports early and late fusion scenarios. In every iteration, M-SAM in three steps optimizes learning. \textbf{First, it identifies the dominant modality} based on modalities' contribution in the accuracy using Shapley. \textbf{Second, it decomposes the loss landscape}, or in another language, it modulates the loss to prioritize the robustness of the model in favor of the dominant modality, and \textbf{third, M-SAM updates the weights} by backpropagation of modulated gradients. This ensures robust learning for the dominant modality while enhancing contributions from others, allowing the model to explore and exploit complementary features that strengthen overall performance. Extensive experiments on four diverse datasets show that M-SAM outperforms the latest state-of-the-art optimization and gradient manipulation methods and significantly balances and improves multimodal learning.
- Abstract(参考訳): マルチモーダル学習において、支配的なモダリティは、しばしば他を覆い、一般化を制限する。
モデルに依存しないフレームワークであるModality-Aware Sharpness-Aware Minimization (M-SAM)を提案する。
イテレーション毎に、M-SAMは3つのステップで学習を最適化する。
\textbf{First, it identified the dominant modality} based on the modalities' contributions in the accuracy using Shapley。
これは損失ランドスケープを分解する、または別の言語では、支配的なモダリティに賛成してモデルのロバスト性を優先順位付けするために損失を変調し、変調された勾配のバックプロパゲーションにより \textbf{ third, M-SAM は重みを更新する。
これにより、他者からのコントリビューションを高めながら、支配的なモダリティに対する堅牢な学習が保証され、モデルが全体的なパフォーマンスを強化する補完的な特徴を探求し、活用することが可能になります。
4つの多様なデータセットに対する大規模な実験により、M-SAMは最新の最先端の最適化と勾配操作法より優れ、バランスが良く、マルチモーダル学習が改善されている。
関連論文リスト
- AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning [55.56234913868664]
そこで我々は,適応型ネットワーク内変調(AIM)を提案し,バランスの取れたモダリティ学習を改善する。
AIMは、変調中のネットワーク内のパラメータと深さの最適化状態の違いを考慮に入れている。
AIMは、複数のベンチマークにおいて、最先端の非バランスなモダリティ学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-27T10:53:36Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Multimodal Classification via Modal-Aware Interactive Enhancement [6.621745547882088]
モーダル・アウェア・インタラクティブ・エンハンスメント(MIE)と呼ばれる新しいマルチモーダル学習手法を提案する。
具体的には、まず、シャープネス認識最小化(SAM)に基づく最適化戦略を用いて、前フェーズにおける学習目標の円滑化を図る。
そこで, SAMの幾何学的性質の助けを借りて, 逆相における異なるモード間の影響を加味するための勾配修正戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:32:07Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。