Fugu-MT 論文翻訳(概要): Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

論文の概要: Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

arxiv url: http://arxiv.org/abs/2311.03099v1
Date: Mon, 6 Nov 2023 13:43:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 14:09:48.161873
Title: Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
Title（参考訳）: 言語モデルはスーパーマリオ:自由ランチとしての相同モデルから能力を吸収する
Authors: Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li
Abstract要約: 言語モデル(LM)は、モデルのパラメータを同化することで、新しい機能を得ることができる。 SFT(Supervised Fine-Tuning)によるLMの新たな機能付与 GLUEベンチマークの8つのデータセットに対してBERTとRoBERTaを用いて実験を行った。
参考スコア（独自算出の注目度）: 78.29150585162319
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we uncover that Language Models (LMs), either encoder- or decoder-based, can obtain new capabilities by assimilating the parameters of homologous models without retraining or GPUs. Typically, new abilities of LMs can be imparted by Supervised Fine-Tuning (SFT), reflected in the disparity between fine-tuned and pre-trained parameters (i.e., delta parameters). We initially observe that by introducing a novel operation called DARE (Drop And REscale), most delta parameters can be directly set to zeros without affecting the capabilities of SFT LMs and larger models can tolerate a higher proportion of discarded parameters. Based on this observation, we further sparsify delta parameters of multiple SFT homologous models with DARE and subsequently merge them into a single model by parameter averaging. We conduct experiments on eight datasets from the GLUE benchmark with BERT and RoBERTa. We also merge WizardLM, WizardMath, and Code Alpaca based on Llama 2. Experimental results show that: (1) The delta parameter value ranges for SFT models are typically small, often within 0.005, and DARE can eliminate 99% of them effortlessly. However, once the models are continuously pre-trained, the value ranges can grow to around 0.03, making DARE impractical. We have also tried to remove fine-tuned instead of delta parameters and find that a 10% reduction can lead to drastically decreased performance (even to 0). This highlights that SFT merely stimulates the abilities via delta parameters rather than injecting new abilities into LMs; (2) DARE can merge multiple task-specific LMs into one LM with diverse abilities. For instance, the merger of WizardLM and WizardMath improves the GSM8K zero-shot accuracy of WizardLM from 2.2 to 66.3, retaining its instruction-following ability while surpassing WizardMath's original 64.2 performance. Codes are available at https://github.com/yule-BUAA/MergeLM.
Abstract（参考訳）: 本稿では,エンコーダベースかデコーダベースかの言語モデル (LM) が,リトレーニングやGPUを使わずにホモロジーモデルのパラメータを同化することにより,新たな能力を得ることができることを示す。通常、LMの新しい能力は、微調整されたパラメータと事前訓練されたパラメータ(デルタパラメータ)の相違に反映されるスーパービジョン・ファインチューニング(SFT)によって付与される。 dare (drop and rescale) と呼ばれる新しい演算を導入することで、ほとんどのデルタパラメータはsft lmsの能力に影響を与えずに直接ゼロに設定でき、より大きなモデルでは廃棄されたパラメータのより高い比率を許容できる。そこで本研究では,複数のSFT相同モデルのデルタパラメータをDAREに分散し,パラメータ平均化により単一モデルにマージする。 GLUEベンチマークの8つのデータセットに対してBERTとRoBERTaを用いて実験を行った。また、Llama 2.0をベースにしたWizardLM、WizardMath、Code Alpacaも統合しました。実験の結果,(1) SFTモデルのデルタパラメータ値範囲は通常小さく, 0.005の範囲内であり, DAREは99%を無駄に除去できることがわかった。しかし、モデルが継続的に事前訓練されると、値範囲は0.03に増加し、DAREは非現実的になる。また, デルタパラメータの代わりに微調整を施すことも試みており, 10%の削減で性能が劇的に低下すること (0。これは、sftが単に新しい能力をlmsに注入するのではなく、デルタパラメータを介して能力を刺激するだけであることを強調する。例えば、WizardLMとWizardMathの合併は、WizardLMのGSM8Kゼロショット精度を2.2から66.3に改善し、WizardMathの64.2性能を上回りながら命令追従能力を維持した。コードはhttps://github.com/yule-buaa/mergelmで入手できる。

関連論文リスト

Parameter-Efficient Fine-Tuning of Large Language Models via Deconvolution in Subspace [3.7049613588433497]
様々な下流タスクのための微調整大型言語モデル(LLM)が新しいパラダイムとなった。 Low-Rank Adaptation (LoRA)はそのパラメータ効率でよく知られている。我々は新しい方法を提案する。効率の良い分解はDCFTと呼ばれ、部分空間のデコンボリューションを介して行われる。
論文参考訳（メタデータ） (2025-03-03T11:15:50Z)
Large Language Diffusion Models [77.02553707673418]
自己回帰モデル(ARM)は、大規模言語モデル(LLM)の基盤として広く見なされている。我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインを上回っています。
論文参考訳（メタデータ） (2025-02-14T08:23:51Z)
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。 WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。 Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文参考訳（メタデータ） (2024-08-06T10:46:46Z)
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling [24.270321913746233]
そこで本研究では,mAgnitude(DELLA-Merging)とSampLingを併用した新しいモデルマージ手法であるDropとrEscaLeを提案する。 MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
論文参考訳（メタデータ） (2024-06-17T15:02:45Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Small Language Model Can Self-correct [42.76612128849389]
本稿では,自己トリガー方式でLMの初期出力を補正することを目的として,生成言語モデルに内在的アンダーライン・アンダーライン・コレクション(ISC)を導入する。我々は,60億から13億のパラメータサイズを持つLMを用いて,常識推論と事実知識推論を含む2つのタスクで実験を行う。
論文参考訳（メタデータ） (2024-01-14T14:29:07Z)
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。 FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文参考訳（メタデータ） (2023-12-11T13:03:21Z)
Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文参考訳（メタデータ） (2023-05-27T02:28:10Z)
PALT: Parameter-Lite Transfer of Language Models for Knowledge Graph Completion [108.8941541255567]
本稿では,知識グラフ(KG)完成のための事前学習言語モデル(LM)のパラメータ・ライト変換学習手法を提案する。全てのLMパラメータを微調整する代わりに、元のLMパラメータを固定しながら、いくつかの新しいパラメータを調整します。本研究は,マイクロチューニングよりもはるかに少ないパラメータをチューニングすることにより,ほとんどのタスクに非自明に伝達し,従来の最先端手法と競合することを示す。
論文参考訳（メタデータ） (2022-10-25T02:22:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。