論文の概要: M-Loss: Quantifying Model Merging Compatibility with Limited Unlabeled Data
- arxiv url: http://arxiv.org/abs/2602.08564v1
- Date: Mon, 09 Feb 2026 12:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.211812
- Title: M-Loss: Quantifying Model Merging Compatibility with Limited Unlabeled Data
- Title(参考訳): M-Loss: 限定された未ラベルデータによる適合性を考慮したモデルマージの定量化
- Authors: Tiantong Wang, Yiyang Duan, Haoyu Chen, Tiantong Wu, Wei Yang Bryan Lim,
- Abstract要約: 本稿では,新しい評価指標であるMerging-ensembling loss (M-Loss)を紹介する。
M-Lossは、非常に限られたラベルのないデータを用いて、マージソースモデルの互換性を定量化する。
理論解析と実験により,M-Lossをマージプロセスに組み込むことで,マージモデルとモデルアンサンブルのアライメントが大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 9.502531621979694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training of large-scale models is both computationally intensive and often constrained by the availability of labeled data. Model merging offers a compelling alternative by directly integrating the weights of multiple source models without requiring additional data or extensive training. However, conventional model merging techniques, such as parameter averaging, often suffer from the unintended combination of non-generalizable features, especially when source models exhibit significant weight disparities. Comparatively, model ensembling generally provides more stable and superior performance that aggregates multiple models by averaging outputs. However, it incurs higher inference costs and increased storage requirements. While previous studies experimentally showed the similarities between model merging and ensembling, theoretical evidence and evaluation metrics remain lacking. To address this gap, we introduce Merging-ensembling loss (M-Loss), a novel evaluation metric that quantifies the compatibility of merging source models using very limited unlabeled data. By measuring the discrepancy between parameter averaging and model ensembling at layer and node levels, M-Loss facilitates more effective merging strategies. Specifically, M-Loss serves both as a quantitative criterion of the theoretical feasibility of model merging, and a guide for parameter significance in model pruning. Our theoretical analysis and empirical evaluations demonstrate that incorporating M-Loss into the merging process significantly improves the alignment between merged models and model ensembling, providing a scalable and efficient framework for accurate model consolidation.
- Abstract(参考訳): 大規模モデルのトレーニングは、計算集約的であり、ラベル付きデータの可用性によって制約されることが多い。
モデルマージは、追加のデータや広範なトレーニングを必要とせずに、複数のソースモデルの重みを直接統合することで、魅力的な代替手段を提供する。
しかし、パラメータ平均化のような従来のモデルマージ技術は、特に情報源モデルがかなりの重量差を示す場合、非一般化不可能な特徴の意図しない組み合わせに悩まされることが多い。
対照的に、モデルアンサンブルは概してより安定で優れたパフォーマンスを提供し、出力を平均することで複数のモデルを集約する。
しかし、推論コストが高くなり、ストレージの要求が増加する。
前回の研究では、モデルマージとアンサンブルの類似性を実験的に示したが、理論的なエビデンスと評価指標はいまだに欠如している。
このギャップに対処するために、非常に限られたラベルのないデータを用いて、マージソースモデルの互換性を定量的に評価する新しい評価指標であるMerging-ensembling loss (M-Loss)を導入する。
パラメータ平均化とモデルアンサンブルの層とノードレベルでの差を測定することで、M-Lossはより効果的なマージ戦略を促進する。
具体的には、M-Lossはモデルマージの理論的実現可能性の定量的基準として機能し、モデルプルーニングにおけるパラメータ重要性のガイドとして機能する。
我々の理論解析と実証評価により,M-Lossをマージプロセスに組み込むことで,マージモデルとモデルアンサンブルのアライメントが大幅に向上し,精度の高いモデル統合のためのスケーラブルで効率的なフレームワークが提供されることが示された。
関連論文リスト
- Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - Model Merging via Multi-Teacher Knowledge Distillation [11.543771846135021]
モデルマージ設定に特化して、新しい平坦性を考慮したPAC-Bayes一般化を導入する。
我々は,少ないラベルのないデータに基づいて,マルチ教師の知識蒸留としてマージするモデルを構築した。
我々は,学生教師のKulback-Leibler分散の最小化が,合併モデルの過大なリスクの上限を直接締め付けることを正式に証明した。
論文 参考訳(メタデータ) (2025-12-24T17:10:44Z) - Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - Minimal Variance Model Aggregation: A principled, non-intrusive, and versatile integration of black box models [0.2455468619225742]
様々なモデルから予測を統合するデータ駆動型フレームワークであるMEVA(Minimal Empirical Variance Aggregation)を紹介する。
この非侵襲的モデルに依存しないアプローチは、貢献するモデルをブラックボックスとして扱い、多様な方法論からの出力を許容する。
論文 参考訳(メタデータ) (2024-09-25T18:33:21Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Non-asymptotic oracle inequalities for the Lasso in high-dimensional mixture of experts [2.794896499906838]
ソフトマックスゲーティング関数を持つガウスモデルとガウス専門家のクラスを考察する。
我々の知る限りでは、SGMoEモデルの$l_1$-regularization特性を非漸近的観点から初めて研究する。
我々は、SGMoEモデルに対するラッソ推定器のKulback-Leibler損失の非漸近的理論的制御を保証するために、ラッソペナルティの正規化パラメータの低い境界を与える。
論文 参考訳(メタデータ) (2020-09-22T15:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。