論文の概要: Training Compute-Optimal Large Language Models
- arxiv url: http://arxiv.org/abs/2203.15556v1
- Date: Tue, 29 Mar 2022 13:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 12:39:57.058150
- Title: Training Compute-Optimal Large Language Models
- Title(参考訳): 計算最適大言語モデルの学習
- Authors: Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya,
Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks,
Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican,
George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen
Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre
- Abstract要約: 私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。
計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。
チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
- 参考スコア(独自算出の注目度): 54.00424650998489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the optimal model size and number of tokens for training a
transformer language model under a given compute budget. We find that current
large language models are significantly undertrained, a consequence of the
recent focus on scaling language models whilst keeping the amount of training
data constant. By training over \nummodels language models ranging from 70
million to over 16 billion parameters on 5 to 500 billion tokens, we find that
for compute-optimal training, the model size and the number of training tokens
should be scaled equally: for every doubling of model size the number of
training tokens should also be doubled. We test this hypothesis by training a
predicted compute-optimal model, \chinchilla, that uses the same compute budget
as \gopher but with 70B parameters and 4$\times$ more more data. \chinchilla
uniformly and significantly outperforms \Gopher (280B), GPT-3 (175B),
Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of
downstream evaluation tasks. This also means that \chinchilla uses
substantially less compute for fine-tuning and inference, greatly facilitating
downstream usage. As a highlight, \chinchilla reaches a state-of-the-art
average accuracy of 67.5\% on the MMLU benchmark, greater than a 7\%
improvement over \gopher.
- Abstract(参考訳): 与えられた計算予算の下でトランスフォーマー言語モデルを訓練するための最適なモデルサイズとトークン数について検討する。
現在の大規模言語モデルは、トレーニングデータの量を一定に保ちながら、最近の言語モデルのスケーリングに焦点を当てた結果、大幅に過小評価されている。
7000万から160億以上のパラメータを5億から500億のトークンでトレーニングすることで、計算最適化トレーニングでは、モデルサイズとトレーニングトークンの数を等しくスケールアップする必要があります。
我々は、予測された計算最適化モデル \chinchilla を訓練し、70B パラメータと 4$\times$ 以上のデータを持つ \gopher と同じ計算予算を用いて、この仮説を検証した。
280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)は、幅広い下流評価タスクにおいて一様かつ著しく優れていた。
これはまた、 \chinchilla が微調整と推論のために計算量を大幅に削減し、下流の使用を大幅に促進することを意味する。
強調として、 \chinchillaは、MMLUベンチマークで最先端の平均精度67.5\%に達し、 \gopherよりも7%以上改善されている。
関連論文リスト
- Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。