論文の概要: Understanding Model Merging: A Unified Generalization Framework for Heterogeneous Experts
- arxiv url: http://arxiv.org/abs/2601.21690v1
- Date: Thu, 29 Jan 2026 13:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.84397
- Title: Understanding Model Merging: A Unified Generalization Framework for Heterogeneous Experts
- Title(参考訳): モデルマージを理解する: 異種専門家のための統一的な一般化フレームワーク
- Authors: Qinglun Li, Anke Tang, Miao Zhang, Mengzhu Wang, Quanjun Yin, Li Shen,
- Abstract要約: モデルマージは、複数の微調整されたモデルの機能を単一のモデルに効率的に集約する。
経験的成功にもかかわらず、不均一な微調整ハイパーパラメータの下での有効性の統一理論はいまだに欠落している。
我々は$L$-Stability理論を用いて、合併されたモデル $boldsymbolx_avg$ の一般化を分析する。
- 参考スコア(独自算出の注目度): 36.26786113564521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging efficiently aggregates capabilities from multiple fine-tuned models into a single one, operating purely in parameter space without original data or expensive re-computation. Despite empirical successes, a unified theory for its effectiveness under heterogeneous finetuning hyperparameters (e.g., varying learning rates, batch sizes) remains missing. Moreover, the lack of hyperparameter transparency in open-source fine-tuned models makes it difficult to predict merged-model performance, leaving practitioners without guidance on how to fine-tune merge-friendly experts. To address those two challenges, we employ $L_2$-Stability theory under heterogeneous hyperparameter environments to analyze the generalization of the merged model $\boldsymbol{x}_{avg}$. This pioneering analysis yields two key contributions: (i) \textit{A unified theoretical framework} is provided to explain existing merging algorithms, revealing how they optimize specific terms in our bound, thus offering a strong theoretical foundation for empirical observations. (ii) \textit{Actionable recommendations} are proposed for practitioners to strategically fine-tune expert models, enabling the construction of merge-friendly models within the pretraining-to-finetuning pipeline. Extensive experiments on the ResNet/Vit family across 20/8 visual classification tasks, involving thousands of finetuning models, robustly confirm the impact of different hyperparameters on the generalization of $\boldsymbol{x}_{avg}$ predicted by our theoretical results.
- Abstract(参考訳): モデルマージは、複数の微調整されたモデルの機能を単一のモデルに効率的に集約し、元のデータや高価な再計算なしでパラメータ空間で純粋に動作する。
経験的成功にもかかわらず、不均一な微調整ハイパーパラメータ(例えば、様々な学習率、バッチサイズ)の下での有効性の統一理論はいまだに欠落している。
さらに、オープンソースの微調整モデルにおけるハイパーパラメータの透明性の欠如は、マージモデルのパフォーマンスの予測を難しくする。
これら2つの課題に対処するために、不均一なハイパーパラメータ環境下での$L_2$-Stability理論を用いて、合併されたモデル $\boldsymbol{x}_{avg}$ の一般化を分析する。
この先駆的な分析は2つの重要な貢献をもたらします。
(i)<textit{A} 統合理論フレームワークは、既存の統合アルゴリズムを説明するために提供され、それらが我々の境界における特定の用語をどのように最適化するかを明らかにし、経験的観察のための強力な理論基盤を提供する。
(ii) {\displaystyle \textit{Actionable recommend} は、実践者が戦略的に微調整の専門家モデルを作成するために提案され、事前訓練から微調整パイプライン内にマージフレンドリーなモデルを構築することができる。
何千もの微調整モデルを含む20/8の視覚的分類タスクにおけるResNet/Vit族に関する大規模な実験は、理論結果によって予測される$\boldsymbol{x}_{avg}$の一般化に対する異なるハイパーパラメータの影響を確実に確認する。
関連論文リスト
- Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - Variational Inference, Entropy, and Orthogonality: A Unified Theory of Mixture-of-Experts [11.888882732753922]
Mixture-of-Expertsモデルは、入力毎に専門家のサブセットのみを起動するため、大きな言語モデルを効率的にスケールすることができる。
ベイズの観点から、これらのプラクティスを最適後続近似と事前正規化として導出する最初の統一理論フレームワークを構築した。
我々の研究は、MoEのより深い理解と新しい設計のために、本質的な理論的支援と技術的保証を提供する。
論文 参考訳(メタデータ) (2026-01-07T04:45:07Z) - Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - A Unified Virtual Mixture-of-Experts Framework:Enhanced Inference and Hallucination Mitigation in Single-Model System [9.764336669208394]
GPTやBERTのような生成モデルは、テキスト生成や要約といったタスクのパフォーマンスを大幅に改善した。
しかし、「モデルが非現実的または誤解を招くコンテンツを生成する場所」という幻覚は、特に小規模アーキテクチャでは問題となる。
本稿では,単一のQwen 1.5 0.5Bモデルにおいて,推論性能を高め,幻覚を緩和する仮想ミックス・オブ・エクササイズ(MoE)融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-01T11:38:01Z) - Theoretical Convergence Guarantees for Variational Autoencoders [2.8167997311962942]
変分オートエンコーダ(VAE)は、複雑なデータ分布からサンプリングするために使われる一般的な生成モデルである。
本稿では, グラディエントDescentアルゴリズムとAdamアルゴリズムの両方を用いてトレーニングしたVAEに対して, 非漸近収束保証を提供することにより, このギャップを埋めることを目的とする。
我々の理論的分析は、Linear VAEとDeep Gaussian VAEの両方、および$beta$-VAEやIWAEを含むいくつかのVAEの変種に適用できる。
論文 参考訳(メタデータ) (2024-10-22T07:12:38Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Posterior Differential Regularization with f-divergence for Improving
Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。
後微分正則化を$f$-divergencesの族に一般化する。
実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。