論文の概要: GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length
- arxiv url: http://arxiv.org/abs/2310.00576v1
- Date: Sun, 1 Oct 2023 05:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:17:21.559556
- Title: GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length
- Title(参考訳): GrowLength: 徐々に成長するトレーニング長によるLLMの加速
- Authors: Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Chia-Yuan
Chang, Xia Hu
- Abstract要約: 本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
- 参考スコア(独自算出の注目度): 65.24730341801468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolving sophistication and intricacies of Large Language Models (LLMs)
yield unprecedented advancements, yet they simultaneously demand considerable
computational resources and incur significant costs. To alleviate these
challenges, this paper introduces a novel, simple, and effective method named
``\growlength'' to accelerate the pretraining process of LLMs. Our method
progressively increases the training length throughout the pretraining phase,
thereby mitigating computational costs and enhancing efficiency. For instance,
it begins with a sequence length of 128 and progressively extends to 4096. This
approach enables models to process a larger number of tokens within limited
time frames, potentially boosting their performance. In other words, the
efficiency gain is derived from training with shorter sequences optimizing the
utilization of resources. Our extensive experiments with various
state-of-the-art LLMs have revealed that models trained using our method not
only converge more swiftly but also exhibit superior performance metrics
compared to those trained with existing methods. Furthermore, our method for
LLMs pretraining acceleration does not require any additional engineering
efforts, making it a practical solution in the realm of LLMs.
- Abstract(参考訳): LLM(Large Language Models)の高度化と複雑化により、前例のない進歩がもたらされるが、同時に相当な計算資源とかなりのコストが要求される。
これらの課題を解決するために,本論文では,LLMの事前学習プロセスを促進するために,'\growlength' という新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を徐々に延長し,計算コストを軽減し,効率を向上する。
例えば、配列の長さは128で始まり、徐々に4096まで伸びる。
このアプローチにより、モデルが限られた時間枠内で多数のトークンを処理することが可能になり、パフォーマンスが向上する可能性がある。
言い換えると、効率の向上はリソースの利用を最適化した短いシーケンスでのトレーニングから得られる。
最先端llmを用いた広範な実験により,本手法を用いてトレーニングしたモデルがより高速に収束するだけでなく,既存の手法でトレーニングしたモデルよりも優れたパフォーマンス指標を示すことが明らかになった。
さらに,加速を事前訓練するLLMの手法は追加のエンジニアリング作業を必要としないため,LLMの領域における現実的な解決策となる。
関連論文リスト
- Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - LLMs can Schedule [3.435169201271934]
ジョブショップスケジューリング問題(JSSP)は、生産プロセスの最適化において重要なハードルであり続けている。
本稿では,JSSPにおけるLarge Language Models(LLM)の可能性について検討する。
驚くべきことに,LLMに基づくスケジューリングは,他のニューラルアプローチに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2024-08-13T15:53:58Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Sparsity-Accelerated Training for Large Language Models [20.86225596276327]
大規模言語モデル (LLM) は様々な自然言語処理 (NLP) タスクの習熟度を示した。
LLMは、連続的な事前訓練や教師付き微調整など、追加の訓練を必要とすることが多い。
本稿では,この学習プロセスの迅速化のために,事前学習したLLMのエンハンスパシティを活用することを提案する。
論文 参考訳(メタデータ) (2024-06-03T14:56:09Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。