Fugu-MT 論文翻訳(概要): Training Compute-Optimal Large Language Models

論文の概要: Training Compute-Optimal Large Language Models

arxiv url: http://arxiv.org/abs/2203.15556v1
Date: Tue, 29 Mar 2022 13:38:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-30 12:39:57.058150
Title: Training Compute-Optimal Large Language Models
Title（参考訳）: 計算最適大言語モデルの学習
Authors: Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre
Abstract要約: 私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
参考スコア（独自算出の注目度）: 54.00424650998489
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling language models whilst keeping the amount of training data constant. By training over \nummodels language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled. We test this hypothesis by training a predicted compute-optimal model, \chinchilla, that uses the same compute budget as \gopher but with 70B parameters and 4$\times$ more more data. \chinchilla uniformly and significantly outperforms \Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of downstream evaluation tasks. This also means that \chinchilla uses substantially less compute for fine-tuning and inference, greatly facilitating downstream usage. As a highlight, \chinchilla reaches a state-of-the-art average accuracy of 67.5\% on the MMLU benchmark, greater than a 7\% improvement over \gopher.
Abstract（参考訳）: 与えられた計算予算の下でトランスフォーマー言語モデルを訓練するための最適なモデルサイズとトークン数について検討する。現在の大規模言語モデルは、トレーニングデータの量を一定に保ちながら、最近の言語モデルのスケーリングに焦点を当てた結果、大幅に過小評価されている。 7000万から160億以上のパラメータを5億から500億のトークンでトレーニングすることで、計算最適化トレーニングでは、モデルサイズとトレーニングトークンの数を等しくスケールアップする必要があります。我々は、予測された計算最適化モデル \chinchilla を訓練し、70B パラメータと 4$\times$ 以上のデータを持つ \gopher と同じ計算予算を用いて、この仮説を検証した。 280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)は、幅広い下流評価タスクにおいて一様かつ著しく優れていた。これはまた、 \chinchilla が微調整と推論のために計算量を大幅に削減し、下流の使用を大幅に促進することを意味する。強調として、 \chinchillaは、MMLUベンチマークで最先端の平均精度67.5\%に達し、 \gopherよりも7%以上改善されている。

関連論文リスト

Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文参考訳（メタデータ） (2024-04-30T17:33:57Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文参考訳（メタデータ） (2024-04-03T16:33:42Z)
Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文参考訳（メタデータ） (2024-03-13T13:54:00Z)
Investigating Pre-trained Language Models on Cross-Domain Datasets, a Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文参考訳（メタデータ） (2023-06-21T11:55:17Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。