論文の概要: Efficient Continual Pre-training by Mitigating the Stability Gap
- arxiv url: http://arxiv.org/abs/2406.14833v2
- Date: Thu, 27 Jun 2024 08:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:37:21.576171
- Title: Efficient Continual Pre-training by Mitigating the Stability Gap
- Title(参考訳): 安定ギャップの緩和による連続的事前学習の効率化
- Authors: Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen,
- Abstract要約: 本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
- 参考スコア(独自算出の注目度): 68.49269649759005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual pre-training has increasingly become the predominant approach for adapting Large Language Models (LLMs) to new domains. This process involves updating the pre-trained LLM with a corpus from a new domain, resulting in a shift in the training distribution. To study the behavior of LLMs during this shift, we measured the model's performance throughout the continual pre-training process. we observed a temporary performance drop at the beginning, followed by a recovery phase, a phenomenon known as the "stability gap," previously noted in vision models classifying new classes. To address this issue and enhance LLM performance within a fixed compute budget, we propose three effective strategies: (1) Continually pre-training the LLM on a subset with a proper size for multiple epochs, resulting in faster performance recovery than pre-training the LLM on a large corpus in a single epoch; (2) Pre-training the LLM only on high-quality sub-corpus, which rapidly boosts domain performance; and (3) Using a data mixture similar to the pre-training data to reduce distribution gap. We conduct various experiments on Llama-family models to validate the effectiveness of our strategies in both medical continual pre-training and instruction tuning. For example, our strategies improve the average medical task performance of the OpenLlama-3B model from 36.2% to 40.7% with only 40% of the original training budget and enhance the average general task performance without causing forgetting. Furthermore, we apply our strategies to the Llama-3-8B model. The resulting model, Llama-3-Physician, achieves the best medical performance among current open-source models, and performs comparably to or even better than GPT-4 on several medical benchmarks. We release our models at \url{https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct}.
- Abstract(参考訳): 継続的な事前学習は、大規模言語モデル(LLM)を新しいドメインに適用するための主要なアプローチになりつつある。
このプロセスでは、トレーニング済みのLLMを新しいドメインからコーパスで更新することで、トレーニング分布がシフトする。
このシフト中のLLMの挙動を調べるため,連続的な事前学習過程を通じてモデルの性能を測定した。
最初は一時的な性能低下がみられ,その後に回復期,すなわち「安定ギャップ」と呼ばれる現象が出現した。
この課題に対処し、固定された計算予算内でのLLM性能を向上させるために、(1)複数のエポックに対して適切な大きさのサブセット上でLLMを継続的に事前訓練し、単一のエポックにおいて大規模コーパス上でLLMを事前訓練するよりも高速な性能回復をもたらすこと、(2)ドメイン性能を急速に向上させる高品質サブコーパスにのみLLMを事前訓練すること、(3)事前学習データと類似したデータを用いて、分散ギャップを低減すること、の3つの効果的な戦略を提案する。
我々は,Llamaファミリーモデルを用いた様々な実験を行い,医療継続訓練と指導訓練における戦略の有効性を検証した。
例えば、OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し、当初のトレーニング予算の40%に留まり、忘れることなく平均一般タスクパフォーマンスを向上させました。
さらに,この戦略をLlama-3-8Bモデルに適用する。
結果として得られたモデルであるLlama-3-Physicianは、現在のオープンソースモデルの中で最高の医療性能を達成し、いくつかの医療ベンチマークにおいて、GPT-4と同等かそれ以上に性能を発揮する。
We release our model at \url{https://huggingface.co/YiDuo 1999/Llama-3-Physician-8B-Instruct}。
関連論文リスト
- The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [60.52921835351632]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - MediSwift: Efficient Sparse Pre-trained Biomedical Language Models [2.327390371420762]
MediSwiftは、ドメイン固有のバイオメディカルテキストデータに対するスパース事前トレーニングを利用するバイオメディカルLMのスイートである。
トレーニング前段階で最大75%の重量幅を誘導することにより、トレーニングFLOPの2-2.5倍の削減を実現している。
この結果から,スパース事前学習と高密度微調整およびソフトプロンプトが,特殊領域における高性能で計算効率の良いモデル作成に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2024-03-01T20:03:44Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [55.65819977062729]
我々は、トレーニング全体を通して完全なモデルを維持できる代替フレームワークであるプログレッシブサブネットワークトレーニングを提案し、各ステップでモデル内でのみトレインワークを行う。
RaPTr は BERT と UL2 言語モデルの事前トレーニング損失が向上すると同時に,標準的なトレーニングに比べて 20-33% のFLOP の削減が要求される。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Flipped Classroom: Effective Teaching for Time Series Forecasting [0.0]
LSTMとGRUに基づくシーケンス・ツー・シーケンス・モデルは時系列データの予測において最も一般的な選択肢である。
この文脈における2つの一般的なトレーニング戦略は、教師強制(TF)とフリーランニング(FR)である。
いくつかの新しいカリキュラムを提案し、その性能を2つの実験セットで体系的に評価する。
論文 参考訳(メタデータ) (2022-10-17T11:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。