論文の概要: When Scaling Meets LLM Finetuning: The Effect of Data, Model and
Finetuning Method
- arxiv url: http://arxiv.org/abs/2402.17193v1
- Date: Tue, 27 Feb 2024 04:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:53:44.769659
- Title: When Scaling Meets LLM Finetuning: The Effect of Data, Model and
Finetuning Method
- Title(参考訳): スケーリングがllmの微調整に合致する場合:データ,モデル,微調整方法の影響
- Authors: Biao Zhang, Zhongtao Liu, Colin Cherry, Orhan Firat
- Abstract要約: 大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。
LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
- 参考スコア(独自算出の注目度): 56.571951345048355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) often adopt finetuning to unlock their
capabilities for downstream applications, our understanding on the inductive
biases (especially the scaling properties) of different finetuning methods is
still limited. To fill this gap, we conduct systematic experiments studying
whether and how different scaling factors, including LLM model size,
pretraining data size, new finetuning parameter size and finetuning data size,
affect the finetuning performance. We consider two types of finetuning --
full-model tuning (FMT) and parameter efficient tuning (PET, including prompt
tuning and LoRA), and explore their scaling behaviors in the data-limited
regime where the LLM model size substantially outweighs the finetuning data
size. Based on two sets of pretrained bilingual LLMs from 1B to 16B and
experiments on bilingual machine translation and multilingual summarization
benchmarks, we find that 1) LLM finetuning follows a powerbased multiplicative
joint scaling law between finetuning data size and each other scaling factor;
2) LLM finetuning benefits more from LLM model scaling than pretraining data
scaling, and PET parameter scaling is generally ineffective; and 3) the optimal
finetuning method is highly task- and finetuning data-dependent. We hope our
findings could shed light on understanding, selecting and developing LLM
finetuning methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能を開放するためにファインタニングを採用することが多いが、異なるファインタニング手法の帰納的バイアス(特にスケーリング特性)に対する理解はまだ限られている。
このギャップを埋めるために,llmモデルサイズ,事前トレーニングデータサイズ,新しい微調整パラメータサイズ,微調整データサイズなど,スケーリング要因が微調整性能に与える影響について,系統的な実験を行った。
我々は,2種類の微調整-フルモデルチューニング (fmt) とパラメータ効率的なチューニング (pet, プロンプトチューニングとlora) について検討し,llmモデルサイズが微調整データサイズを大幅に上回るデータ制限条件下でのスケーリング動作について検討した。
1Bから16Bまでの2組の事前訓練されたバイリンガルLLMと、バイリンガル機械翻訳とマルチリンガル要約ベンチマークの実験から、我々はそのことが分かる。
1) llmの微調整は,データサイズと各スケーリング因子間の電力ベース乗算ジョイントスケーリング則に従う。
2) LLM の微調整は,データスケーリングの事前訓練よりも LLM モデルスケーリングの方が有効であり,PET パラメータスケーリングは一般的には効果がない。
3) 最適な微調整法は, タスクと微調整の精度が高い。
LLMファインタニング手法の理解,選択,開発に光を当てることが期待できる。
関連論文リスト
- LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文 参考訳(メタデータ) (2025-02-17T18:45:25Z) - Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。
本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文 参考訳(メタデータ) (2024-09-12T16:20:57Z) - A Semantic-Aware Layer-Freezing Approach to Computation-Efficient Fine-Tuning of Language Models [32.178931149612644]
下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。
本稿では,バックプロパゲーション(層レベルでの)のコスト削減に向けた先駆的な取り組みを提案する。
我々は、よく知られたLMとデータセットにまたがる広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-17T17:13:08Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Tuning Language Models by Proxy [110.49482736590907]
直接チューニングと同じ目的を達成するために,ブラックボックスLM上で動作する軽量復号時間アルゴリズムであるプロキシチューニングを導入する。
提案手法は, 小型のLMをチューニングし, 小型のLMと未チューニングのLMの予測の差を適用して, より大型の未チューニングモデルの本来の予測をチューニング方向にシフトさせる。
論文 参考訳(メタデータ) (2024-01-16T18:49:55Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Exploring the Impact of Model Scaling on Parameter-Efficient Tuning [100.61202305296275]
大規模事前学習言語モデル(PLM)を効果的に駆動できるスケーリング効率チューニング(PET)法
小型PLMでは、PET法には通常顕著な性能差がある。
本稿では,Arbitrary PET (APET) 法という,より柔軟なPET法を提案する。
論文 参考訳(メタデータ) (2023-06-04T10:10:54Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。