論文の概要: Training Compute-Optimal Large Language Models
- arxiv url: http://arxiv.org/abs/2203.15556v1
- Date: Tue, 29 Mar 2022 13:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 12:39:57.058150
- Title: Training Compute-Optimal Large Language Models
- Title(参考訳): 計算最適大言語モデルの学習
- Authors: Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya,
Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks,
Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican,
George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen
Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre
- Abstract要約: 私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。
計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。
チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
- 参考スコア(独自算出の注目度): 54.00424650998489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the optimal model size and number of tokens for training a
transformer language model under a given compute budget. We find that current
large language models are significantly undertrained, a consequence of the
recent focus on scaling language models whilst keeping the amount of training
data constant. By training over \nummodels language models ranging from 70
million to over 16 billion parameters on 5 to 500 billion tokens, we find that
for compute-optimal training, the model size and the number of training tokens
should be scaled equally: for every doubling of model size the number of
training tokens should also be doubled. We test this hypothesis by training a
predicted compute-optimal model, \chinchilla, that uses the same compute budget
as \gopher but with 70B parameters and 4$\times$ more more data. \chinchilla
uniformly and significantly outperforms \Gopher (280B), GPT-3 (175B),
Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of
downstream evaluation tasks. This also means that \chinchilla uses
substantially less compute for fine-tuning and inference, greatly facilitating
downstream usage. As a highlight, \chinchilla reaches a state-of-the-art
average accuracy of 67.5\% on the MMLU benchmark, greater than a 7\%
improvement over \gopher.
- Abstract(参考訳): 与えられた計算予算の下でトランスフォーマー言語モデルを訓練するための最適なモデルサイズとトークン数について検討する。
現在の大規模言語モデルは、トレーニングデータの量を一定に保ちながら、最近の言語モデルのスケーリングに焦点を当てた結果、大幅に過小評価されている。
7000万から160億以上のパラメータを5億から500億のトークンでトレーニングすることで、計算最適化トレーニングでは、モデルサイズとトレーニングトークンの数を等しくスケールアップする必要があります。
我々は、予測された計算最適化モデル \chinchilla を訓練し、70B パラメータと 4$\times$ 以上のデータを持つ \gopher と同じ計算予算を用いて、この仮説を検証した。
280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)は、幅広い下流評価タスクにおいて一様かつ著しく優れていた。
これはまた、 \chinchilla が微調整と推論のために計算量を大幅に削減し、下流の使用を大幅に促進することを意味する。
強調として、 \chinchillaは、MMLUベンチマークで最先端の平均精度67.5\%に達し、 \gopherよりも7%以上改善されている。
関連論文リスト
- Language models scale reliably with over-training and on downstream
tasks [116.41529786970355]
スケーリング法則は言語モデルを開発する上で有用なガイドである。
現在のスケーリング研究と、言語モデルが最終的にトレーニングされ、評価される方法には、まだギャップがあります。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model
From Scratch? [0.0]
我々はLongformerモデルを法的なデータに基づいて効率的なRTDタスクで訓練し、より少ない計算量で効率的なLMを事前学習できることを実証する。
私たちは、小さなモデルとベースモデルの両方が、ドメイン内BillSumとドメイン外タスクのベースラインを上回っていることに気付きました。
論文 参考訳(メタデータ) (2022-11-30T16:09:20Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - FPM: A Collection of Large-scale Foundation Pre-trained Language Models [0.0]
私たちは現在の効果的なモデル構造を使用して、現在の最も主流な技術を通じてモデルセットをローンチします。
将来的にはこれが基本モデルになると思います。
論文 参考訳(メタデータ) (2021-11-09T02:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。