論文の概要: Efficient Continual Pre-training by Mitigating the Stability Gap
- arxiv url: http://arxiv.org/abs/2406.14833v2
- Date: Thu, 27 Jun 2024 08:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:37:21.576171
- Title: Efficient Continual Pre-training by Mitigating the Stability Gap
- Title(参考訳): 安定ギャップの緩和による連続的事前学習の効率化
- Authors: Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen,
- Abstract要約: 本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
- 参考スコア(独自算出の注目度): 68.49269649759005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual pre-training has increasingly become the predominant approach for adapting Large Language Models (LLMs) to new domains. This process involves updating the pre-trained LLM with a corpus from a new domain, resulting in a shift in the training distribution. To study the behavior of LLMs during this shift, we measured the model's performance throughout the continual pre-training process. we observed a temporary performance drop at the beginning, followed by a recovery phase, a phenomenon known as the "stability gap," previously noted in vision models classifying new classes. To address this issue and enhance LLM performance within a fixed compute budget, we propose three effective strategies: (1) Continually pre-training the LLM on a subset with a proper size for multiple epochs, resulting in faster performance recovery than pre-training the LLM on a large corpus in a single epoch; (2) Pre-training the LLM only on high-quality sub-corpus, which rapidly boosts domain performance; and (3) Using a data mixture similar to the pre-training data to reduce distribution gap. We conduct various experiments on Llama-family models to validate the effectiveness of our strategies in both medical continual pre-training and instruction tuning. For example, our strategies improve the average medical task performance of the OpenLlama-3B model from 36.2% to 40.7% with only 40% of the original training budget and enhance the average general task performance without causing forgetting. Furthermore, we apply our strategies to the Llama-3-8B model. The resulting model, Llama-3-Physician, achieves the best medical performance among current open-source models, and performs comparably to or even better than GPT-4 on several medical benchmarks. We release our models at \url{https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct}.
- Abstract(参考訳): 継続的な事前学習は、大規模言語モデル(LLM)を新しいドメインに適用するための主要なアプローチになりつつある。
このプロセスでは、トレーニング済みのLLMを新しいドメインからコーパスで更新することで、トレーニング分布がシフトする。
このシフト中のLLMの挙動を調べるため,連続的な事前学習過程を通じてモデルの性能を測定した。
最初は一時的な性能低下がみられ,その後に回復期,すなわち「安定ギャップ」と呼ばれる現象が出現した。
この課題に対処し、固定された計算予算内でのLLM性能を向上させるために、(1)複数のエポックに対して適切な大きさのサブセット上でLLMを継続的に事前訓練し、単一のエポックにおいて大規模コーパス上でLLMを事前訓練するよりも高速な性能回復をもたらすこと、(2)ドメイン性能を急速に向上させる高品質サブコーパスにのみLLMを事前訓練すること、(3)事前学習データと類似したデータを用いて、分散ギャップを低減すること、の3つの効果的な戦略を提案する。
我々は,Llamaファミリーモデルを用いた様々な実験を行い,医療継続訓練と指導訓練における戦略の有効性を検証した。
例えば、OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し、当初のトレーニング予算の40%に留まり、忘れることなく平均一般タスクパフォーマンスを向上させました。
さらに,この戦略をLlama-3-8Bモデルに適用する。
結果として得られたモデルであるLlama-3-Physicianは、現在のオープンソースモデルの中で最高の医療性能を達成し、いくつかの医療ベンチマークにおいて、GPT-4と同等かそれ以上に性能を発揮する。
We release our model at \url{https://huggingface.co/YiDuo 1999/Llama-3-Physician-8B-Instruct}。
関連論文リスト
- A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。