論文の概要: Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild
- arxiv url: http://arxiv.org/abs/2410.05357v1
- Date: Mon, 7 Oct 2024 15:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:07:22.218636
- Title: Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild
- Title(参考訳): Model-GLUE: 野生の大型動物のための民主化LSMスケーリング
- Authors: Xinyu Zhao, Guoheng Sun, Ruisi Cai, Yukun Zhou, Pingzhi Li, Peihao Wang, Bowen Tan, Yexiao He, Li Chen, Yi Liang, Beidi Chen, Binhang Yuan, Hongyi Wang, Ang Li, Zhangyang Wang, Tianlong Chen,
- Abstract要約: 本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。
我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
- 参考スコア(独自算出の注目度): 84.57103623507082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) excel across tasks and specialized domains, scaling LLMs based on existing models has garnered significant attention, which faces the challenge of decreasing performance when combining disparate models. Various techniques have been proposed for the aggregation of pre-trained LLMs, including model merging, Mixture-of-Experts, and stacking. Despite their merits, a comprehensive comparison and synergistic application of them to a diverse model zoo is yet to be adequately addressed. In light of this research gap, this paper introduces Model-GLUE, a holistic LLM scaling guideline. First, our work starts with a benchmarking of existing LLM scaling techniques, especially selective merging, and variants of mixture. Utilizing the insights from the benchmark results, we formulate an strategy for the selection and aggregation of a heterogeneous model zoo characterizing different architectures and initialization. Our methodology involves the clustering of mergeable models and optimal merging strategy selection, and the integration of clusters through a model mixture. Finally, evidenced by our experiments on a diverse Llama-2-based model zoo, Model-GLUE shows an average performance enhancement of 5.61%, achieved without additional training. Codes are available at: https://github.com/Model-GLUE/Model-GLUE.
- Abstract(参考訳): LLM(Large Language Models)はタスクや特殊なドメインにまたがって拡張されているため、既存のモデルに基づくLLMのスケーリングは大きな注目を集めており、異なるモデルを組み合わせる際にパフォーマンスを低下させるという課題に直面している。
モデルマージ、Mixture-of-Experts、スタックリングなど、事前訓練されたLLMの集約のための様々な技術が提案されている。
それらの利点にもかかわらず、様々なモデル動物園に対する総合的な比較と相乗効果は、まだ適切に対処されていない。
この研究ギャップを考慮して,本論文では,LLMスケーリングガイドラインであるModel-GLUEを紹介する。
まず、既存のLLMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始めます。
ベンチマーク結果から得られた知見を利用して、異なるアーキテクチャと初期化を特徴付ける異種モデル動物園の選択と集約のための戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
最後に,Llama-2をベースとしたモデル動物園を用いた実験により,モデルGLUEの平均性能向上率は5.61%で,追加のトレーニングを行なわずに達成された。
コードは、https://github.com/Model-GLUE/Model-GLUE.comで入手できる。
関連論文リスト
- SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models? [18.990655668481075]
我々は,最後の層だけでなく,すべての隠蔽層の出力を横断的ネットワークを用いて変換する,新しいプーリング戦略であるMulti-Layers Trainable Poolingを提案する。
本稿では,LLMをベースとした埋め込みモデルの効果的なトレーニング戦略について述べる。
論文 参考訳(メタデータ) (2024-09-04T14:01:48Z) - Weight Scope Alignment: A Frustratingly Easy Method for Model Merging [40.080926444789085]
非I.D.データは平均的なモデル融合にとって大きな課題となる。
本稿では,異なるトレーニング条件下での重量範囲の変化を明らかにする。
幸いなことに、各層のパラメータは基本的にガウス分布に従っており、これは新しく単純な正規化アプローチを刺激している。
論文 参考訳(メタデータ) (2024-08-22T09:13:27Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。
本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。
我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文 参考訳(メタデータ) (2024-04-27T09:00:39Z) - Mixture-Models: a one-stop Python Library for Model-based Clustering
using various Mixture Models [4.60168321737677]
textttMixture-Modelsは、Gaussian Mixture Models(GMM)とその変種を適合させるオープンソースのPythonライブラリである。
様々な第1/第2次最適化ルーチンを使用して、これらのモデルの実装と分析を合理化する。
このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。
論文 参考訳(メタデータ) (2024-02-08T19:34:24Z) - Representation Surgery for Multi-Task Model Merging [57.63643005215592]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-02-05T03:39:39Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。