論文の概要: Language Models are Super Mario: Absorbing Abilities from Homologous
Models as a Free Lunch
- arxiv url: http://arxiv.org/abs/2311.03099v2
- Date: Sun, 4 Feb 2024 16:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:20:18.472052
- Title: Language Models are Super Mario: Absorbing Abilities from Homologous
Models as a Free Lunch
- Title(参考訳): 言語モデルはスーパーマリオ:自由ランチとしての相同モデルから能力を吸収する
- Authors: Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li
- Abstract要約: スーパーバイザード・ファインチューニングLMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に,複数のSFTモデルのデルタパラメータを分散化するために,DAREを汎用的なプラグアンドプレイ手法として利用する。
DAREは90%または99%を無駄に除去することができる。
- 参考スコア(独自算出の注目度): 78.29150585162319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we unveil that Language Models (LMs) can acquire new
capabilities by assimilating parameters from homologous models without
retraining or GPUs. We first introduce DARE to set most delta parameters (i.e.,
the disparity between fine-tuned and pre-trained parameters) to zeros without
affecting the abilities of Supervised Fine-Tuning (SFT) LMs, which randomly
Drops delta parameters with a ratio p And REscales the remaining ones by 1/(1 -
p) to approximate the original embeddings. Then, we use DARE as a versatile
plug-and-play technique to sparsify delta parameters of multiple SFT homologous
models for mitigating parameter interference and merge them into a single model
by parameter fusing. We experiment with encoder- and decoder-based LMs, showing
that: (1) SFT delta parameter value ranges are typically small (within 0.005)
with extreme redundancy, and DARE can effortlessly eliminate 90% or even 99% of
them. (2) DARE can merge multiple task-specific LMs into one LM with diverse
capabilities. For instance, the amalgamation of WizardLM and WizardMath
significantly enhances the GSM8K zero-shot accuracy of WizardLM from 2.2 to
66.3, retaining the instruction-following proficiency while surpassing
WizardMath's 64.2 performance. Our merged LM also ranks first among models with
7 billion parameters on the Open LLM Leaderboard.
- Abstract(参考訳): 本稿では,言語モデル(LM)が,リトレーニングやGPUを使わずにホモロジーモデルからパラメータを同化することにより,新たな能力を得ることができることを示す。
まず,ほとんどのデルタパラメータ(微調整パラメータと事前訓練パラメータの差)をゼロに設定するためにdareを導入する。sft(supervised fine-tuning) lmsの能力に影響を与えず,デルタパラメータをpでランダムにドロップし,残りのパラメータを1/(1p)で再スケールして元の埋め込みを近似する。
そして,DAREを汎用的なプラグアンドプレイ手法として,パラメータ干渉を緩和するために複数のSFTホモロジーモデルのデルタパラメータをスペーシングし,パラメータ拡散により単一モデルにマージする。
我々は,エンコーダとデコーダをベースとしたLMを用いて実験を行い,(1) SFTデルタパラメータ値範囲は典型的には(0.005で)極端に冗長であり,DAREは90%あるいは99%を強制的に除去できることを示した。
2) DAREは複数のタスク固有のLMを1つのLMにマージする。
例えば、WizardLMとWizardMathの融合により、WizardLMのGSM8Kゼロショット精度は2.2から66.3に大幅に向上し、WizardMathの64.2性能を上回りながら命令追従能力を維持する。
合併したLMは、Open LLM Leaderboardで70億のパラメータを持つモデルの中でも第1位です。
関連論文リスト
- Comparing Hyper-optimized Machine Learning Models for Predicting Efficiency Degradation in Organic Solar Cells [39.58317527488534]
本研究は,有機太陽電池 (OSC) の電力変換効率 (PCE) に苦しむ時間的劣化を表現するための機械学習モデルを提案する。
製造プロセスと環境条件の両方に関して最大7変数を含む996項目のデータベースを180日間以上作成しました。
一方、根平均二乗誤差(RMSE)、二乗誤差(SSE)の和、および平均絶対誤差(MAE)>1%の目標値であるPCEは、係数決定(R2)の値に達した。
論文 参考訳(メタデータ) (2024-03-29T22:05:26Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-01-01T08:32:50Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with
Communication Cost under 18 Kilobytes [56.67419203687434]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - PALT: Parameter-Lite Transfer of Language Models for Knowledge Graph
Completion [108.8941541255567]
本稿では,知識グラフ(KG)完成のための事前学習言語モデル(LM)のパラメータ・ライト変換学習手法を提案する。
全てのLMパラメータを微調整する代わりに、元のLMパラメータを固定しながら、いくつかの新しいパラメータを調整します。
本研究は,マイクロチューニングよりもはるかに少ないパラメータをチューニングすることにより,ほとんどのタスクに非自明に伝達し,従来の最先端手法と競合することを示す。
論文 参考訳(メタデータ) (2022-10-25T02:22:29Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。