論文の概要: HLAT: High-quality Large Language Model Pre-trained on AWS Trainium
- arxiv url: http://arxiv.org/abs/2404.10630v1
- Date: Tue, 16 Apr 2024 15:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:24:42.609107
- Title: HLAT: High-quality Large Language Model Pre-trained on AWS Trainium
- Title(参考訳): HLAT: AWS Trainiumで事前トレーニングされた高品質の大規模言語モデル
- Authors: Haozheng Fan, Hao Zhou, Guangtai Huang, Parameswaran Raman, Xinwei Fu, Gaurav Gupta, Dhananjay Ram, Yida Wang, Jun Huan,
- Abstract要約: 下流タスクでうまく機能する大規模言語モデル(LLM)には、数兆以上のトークンを事前トレーニングする必要がある。
これは通常、トレーニングを加速する安定した分散トレーニングフレームワークに加えて、多数の強力な計算装置を必要とする。
AWS Trainiumは、大規模なディープラーニングモデルのトレーニング用に開発された、第2世代のマシンラーニングアクセラレータである。
- 参考スコア(独自算出の注目度): 21.183733616898365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Getting large language models (LLMs) to perform well on the downstream tasks requires pre-training over trillions of tokens. This typically demands a large number of powerful computational devices in addition to a stable distributed training framework to accelerate the training. The growing number of applications leveraging AI/ML had led to a scarcity of the expensive conventional accelerators (such as GPUs), which begs the need for the alternative specialized-accelerators that are scalable and cost-efficient. AWS Trainium is the second-generation machine learning accelerator that has been purposely built for training large deep learning models. Its corresponding instance, Amazon EC2 trn1, is an alternative to GPU instances for LLM training. However, training LLMs with billions of parameters on trn1 is challenging due to its relatively nascent software ecosystem. In this paper, we showcase HLAT: a 7 billion parameter decoder-only LLM pre-trained using trn1 instances over 1.8 trillion tokens. The performance of HLAT is benchmarked against popular open source baseline models including LLaMA and OpenLLaMA, which have been trained on NVIDIA GPUs and Google TPUs, respectively. On various evaluation tasks, we show that HLAT achieves model quality on par with the baselines. We also share the best practice of using the Neuron Distributed Training Library (NDTL), a customized distributed training library for AWS Trainium to achieve efficient training. Our work demonstrates that AWS Trainium powered by the NDTL is able to successfully pre-train state-of-the-art LLM models with high performance and cost-effectiveness.
- Abstract(参考訳): 大きな言語モデル(LLM)を下流のタスクでうまく動作させるためには、数兆以上のトークンを事前トレーニングする必要があります。
これは通常、トレーニングを加速する安定した分散トレーニングフレームワークに加えて、多数の強力な計算装置を必要とする。
AI/MLを活用したアプリケーションの増加は、高価な従来のアクセラレータ(GPUなど)の不足につながった。
AWS Trainiumは、大規模なディープラーニングモデルのトレーニング用に開発された、第2世代のマシンラーニングアクセラレータである。
対応するインスタンスであるAmazon EC2 trn1は、LLMトレーニング用のGPUインスタンスに代わるものだ。
しかし、trn1上で数十億のパラメータでLSMをトレーニングするのは、比較的初期段階のソフトウェアエコシステムのため、難しい。
本稿では、trn1インスタンスを1.8兆トークン以上で事前トレーニングした70億のパラメータデコーダのみのLLMであるHLATについて紹介する。
HLATのパフォーマンスは、それぞれNVIDIA GPUとGoogle TPUでトレーニングされているLLaMAやOpenLLaMAなど、人気のあるオープンソースベースラインモデルと比較される。
様々な評価課題において,HLATがベースラインと同等のモデル品質を達成することを示す。
また、AWS Trainium用にカスタマイズされた分散トレーニングライブラリであるNeuron Distributed Training Library(NDTL)を使用することで、効率的なトレーニングを実現しています。
我々の研究は、NDTLをベースとしたAWS Trainiumが、高性能で費用対効果の高い最先端のLLMモデルの事前トレーニングに成功できることを実証している。
関連論文リスト
- Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Sparsity-Accelerated Training for Large Language Models [20.86225596276327]
大規模言語モデル (LLM) は様々な自然言語処理 (NLP) タスクの習熟度を示した。
LLMは、連続的な事前訓練や教師付き微調整など、追加の訓練を必要とすることが多い。
本稿では,この学習プロセスの迅速化のために,事前学習したLLMのエンハンスパシティを活用することを提案する。
論文 参考訳(メタデータ) (2024-06-03T14:56:09Z) - LoQT: Low Rank Adapters for Quantized Training [5.767156832161818]
LoQTは、量子化されたモデルを効率的に訓練する手法である。
LoQTは、コンシューマグレードの24GB GPU上で、7Bパラメータまでのモデルの効率的なトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-05-26T11:29:57Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - Multi-node Bert-pretraining: Cost-efficient Approach [6.5998084177955425]
大規模トランスフォーマーベースの言語モデルは、多くの自然言語処理(NLP)タスクの最先端結果にエキサイティングな飛躍をもたらした。
大規模な教師なしデータセットの出現により、単一のトレーニングエポック内のデータサンプルの増加により、トレーニング時間がさらに延長される。
学術的な環境では、適切な時間予算(12日)でBERTの事前訓練を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-01T05:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。