論文の概要: Cerebras-GPT: Open Compute-Optimal Language Models Trained on the
Cerebras Wafer-Scale Cluster
- arxiv url: http://arxiv.org/abs/2304.03208v1
- Date: Thu, 6 Apr 2023 16:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 13:23:58.234650
- Title: Cerebras-GPT: Open Compute-Optimal Language Models Trained on the
Cerebras Wafer-Scale Cluster
- Title(参考訳): Cerebras-GPT:Cerrebras Wafer-Scaleクラスタ上で学習したオープン・コンピュート・最適言語モデル
- Authors: Nolan Dey, Gurpreet Gosal, Zhiming (Charles) Chen, Hemant Khachane,
William Marshall, Ribhu Pathria, Marvin Tom, Joel Hestness
- Abstract要約: 本稿では,Cerebras-GPTを紹介した。Cerebras-GPTは111Mから13Bのパラメータに拡張された,オープンな計算最適化言語モデルである。
我々は、予測可能なパワーロースケーリングを特徴付け、Cerebras-GPTと他の公開モデルと比較する。
我々は事前訓練されたモデルとコードを公開し、この論文は、固定データセットサイズでトレーニングされたモデルに対して、計算最適モデルのスケーリングを比較した最初のオープンで再現可能な作業となる。
- 参考スコア(独自算出の注目度): 0.14291940946857257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study recent research advances that improve large language models through
efficient pre-training and scaling, and open datasets and tools. We combine
these advances to introduce Cerebras-GPT, a family of open compute-optimal
language models scaled from 111M to 13B parameters. We train Cerebras-GPT
models on the Eleuther Pile dataset following DeepMind Chinchilla scaling rules
for efficient pre-training (highest accuracy for a given compute budget). We
characterize the predictable power-law scaling and compare Cerebras-GPT with
other publicly-available models to show all Cerebras-GPT models have
state-of-the-art training efficiency on both pre-training and downstream
objectives. We describe our learnings including how Maximal Update
Parameterization ($\mu$P) can further improve large model scaling, improving
accuracy and hyperparameter predictability at scale. We release our pre-trained
models and code, making this paper the first open and reproducible work
comparing compute-optimal model scaling to models trained on fixed dataset
sizes. Cerebras-GPT models are available on HuggingFace:
https://huggingface.co/cerebras.
- Abstract(参考訳): 我々は、効率的な事前トレーニングとスケーリング、オープンデータセットとツールにより、大規模言語モデルを改善する最近の研究動向について研究する。
cerebras-gptは111mから13bのパラメータにスケールしたオープン・コンピュート・オプティマイズ言語モデルである。
我々は、DeepMind Chinchillaスケーリングルールに従って、Eleuther Pileデータセット上でCerebras-GPTモデルをトレーニングし、効率的な事前トレーニング(与えられた計算予算の最大精度)を行う。
予測可能なパワーロースケーリングを特徴付け,Cerebras-GPTと他の公開モデルを比較して,すべてのCerebras-GPTモデルが,事前学習と下流の両方の目標に対して最先端のトレーニング効率を有することを示す。
我々は、最大更新パラメータ化($\mu$P)が大規模モデルのスケーリングをさらに改善し、精度を向上し、スケールでのハイパーパラメータ予測可能性を向上させることを含む、我々の学習について説明する。
事前学習したモデルとコードをリリースし、この論文は、計算最適化モデルスケーリングと固定データセットサイズでトレーニングされたモデルを比較した、最初のオープンかつ再現可能な作業である。
Cerebras-GPTモデルはHuggingFaceで利用可能である。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization [22.90653167145603]
本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。
結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
論文 参考訳(メタデータ) (2024-09-19T16:50:26Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Foundational GPT Model for MEG [3.524869467682149]
本研究では,脳信号の予測を用いて学習可能な2種類のディープラーニング基礎モデルを提案する。
まず、改良されたWavenetを検討し、次に、改良されたTransformer-based (GPT2)モデルを検討する。
我々は,これらのディープラーニングモデルの性能を,MEGデータに基づく標準的な線形自己回帰(AR)モデルと比較する。
論文 参考訳(メタデータ) (2024-04-14T13:48:24Z) - Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。
適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文 参考訳(メタデータ) (2023-11-06T16:20:28Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。