論文の概要: MAGIC: Achieving Superior Model Merging via Magnitude Calibration
- arxiv url: http://arxiv.org/abs/2512.19320v1
- Date: Mon, 22 Dec 2025 12:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.741836
- Title: MAGIC: Achieving Superior Model Merging via Magnitude Calibration
- Title(参考訳): MAGIC: マグニチュードキャリブレーションによるスーパーモデルマージの実現
- Authors: Yayuan Li, Jian Zhang, Jintao Guo, Zihan Cheng, Lei Qi, Yinghuan Shi, Yang Gao,
- Abstract要約: モデルマージは、特殊化されたモデルの能力を統一されたモデルにマージすることを目的としている。
特徴は方向と大きさの2つの重要な構成要素から成っている。
MAGnItude (MAGIC) は,特徴空間と重み空間の層規模を補正するプラグイン・アンド・プレイ・フレームワークである。
- 参考スコア(独自算出の注目度): 46.30162864565835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of pre-trained models has given rise to a wide array of specialised, fine-tuned models. Model merging aims to merge the distinct capabilities of these specialised models into a unified model, requiring minimal or even no additional training. A core objective of model merging is to ensure the merged model retains the behavioural characteristics of the specialised models, typically achieved through feature alignment. We identify that features consist of two critical components: direction and magnitude. Prior research has predominantly focused on directional alignment, while the influence of magnitude remains largely neglected, despite its pronounced vulnerability to perturbations introduced by common merging operations (e.g., parameter fusion and sparsification). Such perturbations to magnitude inevitably lead to feature deviations in the merged model from the specialised models, resulting in subsequent performance degradation. To address this, we propose MAGnItude Calibration (MAGIC), a plug-and-play framework that rectifies layer-wise magnitudes in feature and weight spaces, with three variants. Specifically, our Feature Space Calibration (FSC) realigns the merged model's features using a small set of unlabelled data, while Weight Space Calibration (WSC) extends this calibration to the weight space without requiring additional data. Combining these yields Dual Space Calibration (DSC). Comprehensive experiments demonstrate that MAGIC consistently boosts performance across diverse Computer Vision tasks (+4.3% on eight datasets) and NLP tasks (+8.0% on Llama) without additional training. Our code is available at: https://github.com/lyymuwu/MAGIC
- Abstract(参考訳): 事前訓練されたモデルの拡散は、様々な特殊化、微調整されたモデルを生み出した。
モデルマージは、これらの特殊化されたモデルの異なる能力を統一モデルにマージすることを目的としており、最小限またはそれ以上のトレーニングを必要としない。
モデルマージの中核的な目的は、統合されたモデルが、典型的には機能アライメントによって達成される、特殊化されたモデルの振る舞い特性を確実に保持することである。
特徴は方向と大きさの2つの重要な構成要素から成っている。
従来の研究は主に方向のアライメントに焦点を合わせてきたが、一般的な統合操作(例えばパラメータ融合やスペーサー化)によって引き起こされる摂動に対する脆弱さにもかかわらず、マグニチュードの影響はほとんど無視されてきた。
このようなマグニチュードへの摂動は、特別なモデルからマージされたモデルにおける特徴の偏りを必然的に引き起こし、その後の性能低下をもたらす。
そこで, MAGnItude Calibration (MAGIC) を提案する。
具体的には、FSC(Feature Space Calibration)は、マージされたモデルの機能を、小さなラベルのないデータセットを用いて再定義する一方、WSC(Weight Space Calibration)はこのキャリブレーションを余分なデータを必要としない重み空間に拡張する。
これらを組み合わせて、二重空間校正(Dual Space Calibration、DSC)を行う。
総合的な実験では、MAGICは追加トレーニングなしで様々なコンピュータビジョンタスク(8つのデータセットで+4.3%)とNLPタスク(Llamaで+8.0%)のパフォーマンスを継続的に向上させる。
私たちのコードは、https://github.com/lyymuwu/MAGICで利用可能です。
関連論文リスト
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。