Fugu-MT 論文翻訳(概要): When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method

論文の概要: When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method

arxiv url: http://arxiv.org/abs/2402.17193v1
Date: Tue, 27 Feb 2024 04:18:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 17:53:44.769659
Title: When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method
Title（参考訳）: スケーリングがllmの微調整に合致する場合:データ,モデル,微調整方法の影響
Authors: Biao Zhang, Zhongtao Liu, Colin Cherry, Orhan Firat
Abstract要約: 大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。 LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
参考スコア（独自算出の注目度）: 56.571951345048355
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) often adopt finetuning to unlock their capabilities for downstream applications, our understanding on the inductive biases (especially the scaling properties) of different finetuning methods is still limited. To fill this gap, we conduct systematic experiments studying whether and how different scaling factors, including LLM model size, pretraining data size, new finetuning parameter size and finetuning data size, affect the finetuning performance. We consider two types of finetuning -- full-model tuning (FMT) and parameter efficient tuning (PET, including prompt tuning and LoRA), and explore their scaling behaviors in the data-limited regime where the LLM model size substantially outweighs the finetuning data size. Based on two sets of pretrained bilingual LLMs from 1B to 16B and experiments on bilingual machine translation and multilingual summarization benchmarks, we find that 1) LLM finetuning follows a powerbased multiplicative joint scaling law between finetuning data size and each other scaling factor; 2) LLM finetuning benefits more from LLM model scaling than pretraining data scaling, and PET parameter scaling is generally ineffective; and 3) the optimal finetuning method is highly task- and finetuning data-dependent. We hope our findings could shed light on understanding, selecting and developing LLM finetuning methods.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能を開放するためにファインタニングを採用することが多いが、異なるファインタニング手法の帰納的バイアス(特にスケーリング特性)に対する理解はまだ限られている。このギャップを埋めるために,llmモデルサイズ,事前トレーニングデータサイズ,新しい微調整パラメータサイズ,微調整データサイズなど,スケーリング要因が微調整性能に与える影響について,系統的な実験を行った。我々は,2種類の微調整-フルモデルチューニング (fmt) とパラメータ効率的なチューニング (pet, プロンプトチューニングとlora) について検討し,llmモデルサイズが微調整データサイズを大幅に上回るデータ制限条件下でのスケーリング動作について検討した。 1Bから16Bまでの2組の事前訓練されたバイリンガルLLMと、バイリンガル機械翻訳とマルチリンガル要約ベンチマークの実験から、我々はそのことが分かる。 1) llmの微調整は,データサイズと各スケーリング因子間の電力ベース乗算ジョイントスケーリング則に従う。 2) LLM の微調整は,データスケーリングの事前訓練よりも LLM モデルスケーリングの方が有効であり,PET パラメータスケーリングは一般的には効果がない。 3) 最適な微調整法は, タスクと微調整の精度が高い。 LLMファインタニング手法の理解,選択,開発に光を当てることが期待できる。

関連論文リスト

Rethinking Data: Towards Better Performing Domain-Specific Small Language Models [0.0]
本稿では,小言語モデル(LM)の微調整について述べる。 LMトレーニングパイプラインの各段階でのデータ品質を改善することで、これを実現する。我々は、異なるデータサブセット上の異なるパラメータで微調整されたモデルをマージすることで、モデル一般化能力を向上させる。
論文参考訳（メタデータ） (2025-03-03T12:19:12Z)
LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文参考訳（メタデータ） (2025-02-17T18:45:25Z)
Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文参考訳（メタデータ） (2024-09-12T16:20:57Z)
Gradient-Mask Tuning Elevates the Upper Limits of LLM Performance [51.36243421001282]
Gradient-Mask Tuning (GMT) は、勾配情報に基づいてトレーニング中のパラメータを選択的に更新する手法である。実験により, GMTは従来の微調整法に勝るだけでなく, LLM性能の上限も高めることを示した。
論文参考訳（メタデータ） (2024-06-21T17:42:52Z)
A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models [32.178931149612644]
下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。パラメータ効率の微調整(PEFT)のような既存の作業は、しばしば微細化のためのthithowに焦点を当てるが、微細化のためのtextitwhereの問題を無視している。
論文参考訳（メタデータ） (2024-06-17T17:13:08Z)
Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting [0.0]
我々は、大規模言語モデル(LLM)の様々な微調整戦略の理解を深めようとしている。我々は,2つのデータセット(COLAとMNLI)で事前学習したモデルに対して,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法を比較した。以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。
論文参考訳（メタデータ） (2024-05-21T20:08:52Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
Tuning Language Models by Proxy [110.49482736590907]
直接チューニングと同じ目的を達成するために,ブラックボックスLM上で動作する軽量復号時間アルゴリズムであるプロキシチューニングを導入する。提案手法は, 小型のLMをチューニングし, 小型のLMと未チューニングのLMの予測の差を適用して, より大型の未チューニングモデルの本来の予測をチューニング方向にシフトさせる。
論文参考訳（メタデータ） (2024-01-16T18:49:55Z)
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。 FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文参考訳（メタデータ） (2023-12-11T13:03:21Z)
SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文参考訳（メタデータ） (2023-08-12T10:33:57Z)
Exploring the Impact of Model Scaling on Parameter-Efficient Tuning [100.61202305296275]
大規模事前学習言語モデル(PLM)を効果的に駆動できるスケーリング効率チューニング(PET)法小型PLMでは、PET法には通常顕著な性能差がある。本稿では,Arbitrary PET (APET) 法という,より柔軟なPET法を提案する。
論文参考訳（メタデータ） (2023-06-04T10:10:54Z)
Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文参考訳（メタデータ） (2023-05-27T02:28:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。