論文の概要: Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
- arxiv url: http://arxiv.org/abs/2311.03099v3
- Date: Thu, 13 Jun 2024 11:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-15 00:16:39.389282
- Title: Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
- Title(参考訳): 言語モデルはスーパーマリオである:自由ランチとしてのホモロジーモデルからの能力の吸収
- Authors: Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li,
- Abstract要約: スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
- 参考スコア(独自算出の注目度): 72.97553348776425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we unveil that Language Models (LMs) can acquire new capabilities by assimilating parameters from homologous models without retraining or GPUs. We first introduce DARE to set most delta parameters (i.e., the disparity between fine-tuned and pre-trained parameters) to zeros without affecting the abilities of Supervised Fine-Tuning (SFT) LMs, which randomly Drops delta parameters with a ratio $p$ And REscales the remaining ones by $1 / (1 - p)$ to approximate the original embeddings. Then, we use DARE as a versatile plug-in to sparsify delta parameters of multiple SFT homologous models for mitigating parameter interference and merge them into a single model by parameter fusing. We experiment with encoder- and decoder-based LMs, showing that: (1) SFT delta parameter value ranges are typically small (within 0.002) with extreme redundancy, and DARE can effortlessly eliminate 90% or even 99% of them; (2) DARE can merge multiple task-specific LMs into one LM with diverse capabilities. Notably, this phenomenon is more pronounced in large-scale LMs, where the merged LM reveals the potential to surpass the performance of any source LM, providing a new discovery. We also utilize DARE to create a merged LM that ranks first among models with 7 billion parameters on the Open LLM Leaderboard.
- Abstract(参考訳): 本稿では,言語モデル(LM)が,リトレーニングやGPUを使わずにホモロジーモデルからパラメータを同化することにより,新たな能力を得ることができることを示す。
最初にDAREを導入して、ほとんどのデルタパラメータ(微調整パラメータと事前訓練パラメータの相違)をゼロに設定するが、これはスーパービジョンファインチューニング (SFT) LMの能力に影響を与えず、差分パラメータを$p$でランダムにドロップし、残りのパラメータを$1/ (1 - p)$でスケールし、元の埋め込みを近似する。
次に,DAREを汎用プラグインとして使用し,パラメータ干渉を緩和するために複数のSFTホモロジーモデルのデルタパラメータをスペーシングし,パラメータ融合により単一モデルにマージする。
我々は,エンコーダとデコーダをベースとしたLMを用いて実験を行い,(1) SFTパラメータ値範囲が通常小さく,(0.002で)極端に冗長であり,DAREは90%あるいは99%を強制的に除去し,(2)DAREは複数のタスク固有のLMを多様な能力で一つのLMにマージできることを示した。
特に、この現象は大規模な LM においてより顕著であり、合併された LM は任意のソース LM の性能を上回る可能性を示し、新たな発見をもたらす。
また、DAREを使用して、Open LLM Leaderboard上で70億のパラメータを持つモデルの中で、第1位となる統合LMを作成します。
関連論文リスト
- Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling [24.270321913746233]
そこで本研究では,mAgnitude(DELLA-Merging)とSampLingを併用した新しいモデルマージ手法であるDropとrEscaLeを提案する。
MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
論文 参考訳(メタデータ) (2024-06-17T15:02:45Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Small Language Model Can Self-correct [42.76612128849389]
本稿では,自己トリガー方式でLMの初期出力を補正することを目的として,生成言語モデルに内在的アンダーライン・アンダーライン・コレクション(ISC)を導入する。
我々は,60億から13億のパラメータサイズを持つLMを用いて,常識推論と事実知識推論を含む2つのタスクで実験を行う。
論文 参考訳(メタデータ) (2024-01-14T14:29:07Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - PALT: Parameter-Lite Transfer of Language Models for Knowledge Graph
Completion [108.8941541255567]
本稿では,知識グラフ(KG)完成のための事前学習言語モデル(LM)のパラメータ・ライト変換学習手法を提案する。
全てのLMパラメータを微調整する代わりに、元のLMパラメータを固定しながら、いくつかの新しいパラメータを調整します。
本研究は,マイクロチューニングよりもはるかに少ないパラメータをチューニングすることにより,ほとんどのタスクに非自明に伝達し,従来の最先端手法と競合することを示す。
論文 参考訳(メタデータ) (2022-10-25T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。