論文の概要: What Matters for Model Merging at Scale?
- arxiv url: http://arxiv.org/abs/2410.03617v1
- Date: Fri, 4 Oct 2024 17:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:08:10.470066
- Title: What Matters for Model Merging at Scale?
- Title(参考訳): スケールでのモデルマージには何が重要か?
- Authors: Prateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai,
- Abstract要約: モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
- 参考スコア(独自算出の注目度): 94.26607564817786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging aims to combine multiple expert models into a more capable single model, offering benefits such as reduced storage and serving costs, improved generalization, and support for decentralized model development. Despite its promise, previous studies have primarily focused on merging a few small models. This leaves many unanswered questions about the effect of scaling model size and how it interplays with other key factors -- like the base model quality and number of expert models -- , to affect the merged model's performance. This work systematically evaluates the utility of model merging at scale, examining the impact of these different factors. We experiment with merging fully fine-tuned models using 4 popular merging methods -- Averaging, Task~Arithmetic, Dare, and TIES -- across model sizes ranging from 1B-64B parameters and merging up to 8 different expert models. We evaluate the merged models on both held-in tasks, i.e., the expert's training tasks, and zero-shot generalization to unseen held-out tasks. Our experiments provide several new insights about model merging at scale and the interplay between different factors. First, we find that merging is more effective when experts are created from strong base models, i.e., models with good zero-shot performance. Second, larger models facilitate easier merging. Third merging consistently improves generalization capabilities. Notably, when merging 8 large expert models, the merged models often generalize better compared to the multitask trained models. Fourth, we can better merge more expert models when working with larger models. Fifth, different merging methods behave very similarly at larger scales. Overall, our findings shed light on some interesting properties of model merging while also highlighting some limitations. We hope that this study will serve as a reference point on large-scale merging for upcoming research.
- Abstract(参考訳): モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としており、ストレージの削減やサービスコストの削減、一般化の改善、分散モデル開発のサポートなどのメリットを提供する。
その約束にもかかわらず、これまでの研究は主にいくつかの小さなモデルをマージすることに焦点を当ててきた。
このことは、モデルのサイズをスケールすることの影響や、マージされたモデルの性能に影響を与えるために、ベースモデルの品質やエキスパートモデルの数など、他の重要な要因とどのように相互作用するかについて、多くの未解決の疑問を残している。
この研究は、これらの異なる要因の影響を調べながら、大規模にマージするモデルの有用性を体系的に評価する。
Averaging, Task~Arithmetic, Dare, TIESの4つの一般的なマージ手法を使って,1B-64Bパラメータから最大8種類のエキスパートモデルへのマージを行う。
筆者らは, 保持タスク, すなわち, 専門家の訓練タスク, 保持タスクのゼロショット一般化について, 統合モデルの評価を行った。
我々の実験は、スケールでのモデルマージと異なる要因間の相互作用に関するいくつかの新しい洞察を提供する。
まず、強力なベースモデル、すなわちゼロショット性能の優れたモデルから専門家が作成されると、マージがより効果的であることが分かる。
第二に、より大型のモデルによりマージが容易になる。
第3のマージは、常に一般化機能を改善する。
特に、8つの大きなエキスパートモデルをマージする場合、マージされたモデルは、マルチタスクのトレーニングされたモデルと比較して、より一般化されることが多い。
第4に,より大きなモデルを扱う場合には,より多くのエキスパートモデルをマージする方がよいのです。
第5に、異なるマージ法は大規模で非常に同じように振る舞う。
全体としては、モデルマージの興味深い性質に光を当てつつ、いくつかの制限を強調しています。
我々は,本研究が今後の研究の大規模統合の基準点になることを期待している。
関連論文リスト
- Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - HM3: Heterogeneous Multi-Class Model Merging [0.0]
本研究では,補助ガードレールモデルを単一多機能モデルに統合するためのトレーニングフリーモデルマージ手法について検討する。
異種ラベル空間とマルチクラス分類器をマージする簡単な手法として、異種多クラスモデルマージ(HM3)を提案する。
BERTをベースとしたガードモデルをマージする有望な結果が報告され、その一部はソースモデルよりも平均F1スコア高くなり、推論時間を最大44%削減する。
論文 参考訳(メタデータ) (2024-09-27T22:42:45Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - ZipIt! Merging Models from Different Tasks without Training [20.2479633507354]
ZipIt!」は、同じアーキテクチャの2つの任意のモデルをマージする一般的な方法である。
これら2つの変更が組み合わさって、以前の作業よりも20~60%改善されていることが分かりました。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-04-13T19:54:51Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。