論文の概要: GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length
- arxiv url: http://arxiv.org/abs/2310.00576v1
- Date: Sun, 1 Oct 2023 05:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:17:21.559556
- Title: GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length
- Title(参考訳): GrowLength: 徐々に成長するトレーニング長によるLLMの加速
- Authors: Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Chia-Yuan
Chang, Xia Hu
- Abstract要約: 本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
- 参考スコア(独自算出の注目度): 65.24730341801468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolving sophistication and intricacies of Large Language Models (LLMs)
yield unprecedented advancements, yet they simultaneously demand considerable
computational resources and incur significant costs. To alleviate these
challenges, this paper introduces a novel, simple, and effective method named
``\growlength'' to accelerate the pretraining process of LLMs. Our method
progressively increases the training length throughout the pretraining phase,
thereby mitigating computational costs and enhancing efficiency. For instance,
it begins with a sequence length of 128 and progressively extends to 4096. This
approach enables models to process a larger number of tokens within limited
time frames, potentially boosting their performance. In other words, the
efficiency gain is derived from training with shorter sequences optimizing the
utilization of resources. Our extensive experiments with various
state-of-the-art LLMs have revealed that models trained using our method not
only converge more swiftly but also exhibit superior performance metrics
compared to those trained with existing methods. Furthermore, our method for
LLMs pretraining acceleration does not require any additional engineering
efforts, making it a practical solution in the realm of LLMs.
- Abstract(参考訳): LLM(Large Language Models)の高度化と複雑化により、前例のない進歩がもたらされるが、同時に相当な計算資源とかなりのコストが要求される。
これらの課題を解決するために,本論文では,LLMの事前学習プロセスを促進するために,'\growlength' という新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を徐々に延長し,計算コストを軽減し,効率を向上する。
例えば、配列の長さは128で始まり、徐々に4096まで伸びる。
このアプローチにより、モデルが限られた時間枠内で多数のトークンを処理することが可能になり、パフォーマンスが向上する可能性がある。
言い換えると、効率の向上はリソースの利用を最適化した短いシーケンスでのトレーニングから得られる。
最先端llmを用いた広範な実験により,本手法を用いてトレーニングしたモデルがより高速に収束するだけでなく,既存の手法でトレーニングしたモデルよりも優れたパフォーマンス指標を示すことが明らかになった。
さらに,加速を事前訓練するLLMの手法は追加のエンジニアリング作業を必要としないため,LLMの領域における現実的な解決策となる。
関連論文リスト
- Taming Pre-trained LLMs for Generalised Time Series Forecasting via
Cross-modal Knowledge Distillation [62.46869075841118]
我々はLLaTAと呼ばれる新しい大規模言語モデルと時系列アライメントフレームワークを提案し、時系列予測課題におけるLLMの可能性を完全に解き放つ。
提案手法は, クロスモーダルな知識蒸留に基づいて, 入力に依存しない静的知識と, 事前学習LLMにおける入力依存動的知識の両方を利用する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language
Models with 3D Parallelism [75.1814102438065]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。