論文の概要: Model Merging via Multi-Teacher Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2512.21288v1
- Date: Wed, 24 Dec 2025 17:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.837867
- Title: Model Merging via Multi-Teacher Knowledge Distillation
- Title(参考訳): マルチ教師の知識蒸留によるモデルマージ
- Authors: Seyed Arshan Dalili, Mehrdad Mahdavi,
- Abstract要約: モデルマージ設定に特化して、新しい平坦性を考慮したPAC-Bayes一般化を導入する。
我々は,少ないラベルのないデータに基づいて,マルチ教師の知識蒸留としてマージするモデルを構築した。
我々は,学生教師のKulback-Leibler分散の最小化が,合併モデルの過大なリスクの上限を直接締め付けることを正式に証明した。
- 参考スコア(独自算出の注目度): 11.543771846135021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging has emerged as a lightweight alternative to joint multi-task learning (MTL), yet the generalization properties of merged models remain largely unexplored. Establishing such theoretical guarantees is non-trivial, as the merging process typically forbids access to the original training data and involves combining fine-tuned models trained on fundamentally heterogeneous data distributions. Without a principled understanding of these dynamics, current methods often rely on heuristics to approximate the optimal combination of parameters. This dependence is most critical in coefficient scaling, the weighting factors that modulate the magnitude of each fine-tuned model's contribution to the shared parameter. However, without a principled objective to guide their selection, these methods lead to brittle performance and are highly sensitive to scaling initialization. We address this gap by (i) establishing a novel flatness-aware PAC-Bayes generalization bound specifically for the model merging setting. This analysis introduces a "cross-task heterogeneity" term that formally captures the mismatch between diverse fine-tuned model priors and the target multi-task distributions. Guided by this theoretical insight, (ii) we frame model merging as multi-teacher knowledge distillation on scarce, unlabeled data. We formally demonstrate that minimizing the student-teacher Kullback-Leibler divergence directly tightens the upper bound on the merged model's excess risk. Guided by the flatness-aware bound derived, (iii) we operationalize this objective via SAMerging, a method that employs Sharpness-Aware Minimization (SAM) to find flat minima. Empirically, SAMerging establishes a new state of the art across vision and NLP benchmarks, achieving remarkable performance. The code is available at https://github.com/arshandalili/SAMerging.
- Abstract(参考訳): 連立マルチタスク学習(MTL)の軽量な代替としてモデルマージが登場したが、マージモデルの一般化特性はほとんど解明されていない。
このような理論的保証を確立することは、通常、マージプロセスは元のトレーニングデータへのアクセスを禁止し、基本的に異種データ分布で訓練された微調整モデルを組み合わせることを含むため、簡単ではない。
これらの力学の原理的な理解がなければ、現在の手法はしばしばパラメータの最適な組み合わせを近似するためにヒューリスティックに依存している。
この依存は係数スケーリングにおいて最も重要であり、それぞれの微調整されたモデルの共有パラメータへの寄与の大きさを変調する重み付け因子である。
しかし、それらの選択を導くための原則的な目的がなければ、これらの手法は脆い性能をもたらし、初期化のスケーリングに非常に敏感である。
私たちはこのギャップに対処します
i)モデルマージ設定に特有な新しい平坦性を考慮したPAC-Bayes一般化の確立。
この分析は「クロスタスクの不均一性」という用語を導入し、様々な微調整モデルとターゲットのマルチタスク分布のミスマッチを正式にキャプチャする。
この理論的な洞察に導かれる。
(II) 少ないラベルのないデータに基づいて, マルチ教師の知識蒸留としてマージするモデルについて検討した。
我々は,学生教師のKulback-Leibler分散の最小化が,合併モデルの過大なリスクの上限を直接締め付けることを正式に証明した。
平坦性に配慮した導出により導かれる。
この目的をSAMerging(Sharpness-Aware Minimization (SAM) を用いてフラットなミニマを見つける手法)を用いて運用する。
SAMergingは、視覚とNLPベンチマークに新たな最先端技術を確立し、優れたパフォーマンスを実現している。
コードはhttps://github.com/arshandalili/SAMerging.comで公開されている。
関連論文リスト
- Towards Reversible Model Merging For Low-rank Weights [5.100622189286672]
モデルマージは、複数の微調整されたモデルを1セットの重みにまとめることを目的としており、すべてのソースタスクでうまく機能する。
従来のマージ法を低ランクウェイトに適用すると, マージモデルの性能が著しく低下することを示す。
すべてのアダプタを1組の重みに分解する代わりに、コンパクトな基底を構築する。
これは、単一のマージモデルを生成するのではなく、再構成可能なモデル空間を生成するものとしてマージされる。
論文 参考訳(メタデータ) (2025-10-15T23:22:38Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - NAN: A Training-Free Solution to Coefficient Estimation in Model Merging [61.36020737229637]
最適なマージ重み付けは,各モデルに符号化されたタスク固有情報の量とともにスケールする必要があることを示す。
パラメータノルムの逆数を用いてモデルマージ係数を推定する,単純で効果的な手法であるNANを提案する。
NANはトレーニングフリーで、プラグアンドプレイで、幅広いマージ戦略に適用できる。
論文 参考訳(メタデータ) (2025-05-22T02:46:08Z) - Decouple and Orthogonalize: A Data-Free Framework for LoRA Merging [18.650279202312614]
分離直交メルジング手法(DO-Merging)を提案する。
パラメータを大きさと方向の成分に分離することにより、マージしたモデルの方向アライメントに対する大きさ差の影響を低減する。
我々は、視覚、言語、マルチモーダル領域にわたる広範な実験を通じて、提案したDO-Mergingは、既存のマージメソッドよりも、最小限のコストで大幅に高いパフォーマンスを達成することができることを検証した。
論文 参考訳(メタデータ) (2025-05-21T16:34:37Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Every Parameter Matters: Ensuring the Convergence of Federated Learning
with Dynamic Heterogeneous Models Reduction [22.567754688492414]
クロスデバイス・フェデレーション・ラーニング(FL)は、ユニークなコントリビューションを行う可能性のあるローエンドのクライアントが、リソースのボトルネックのため、大規模なモデルのトレーニングから除外されるという、大きな課題に直面します。
近年,グローバルモデルから縮小サイズのモデルを抽出し,それに応じてローカルクライアントに適用することによって,モデル不均一FLに焦点を当てている。
本稿では,オンラインモデル抽出を用いた不均一FLアルゴリズムの一元化フレームワークを提案し,一般収束解析を初めて提供する。
論文 参考訳(メタデータ) (2023-10-12T19:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。