論文の概要: Textbooks Are All You Need
- arxiv url: http://arxiv.org/abs/2306.11644v2
- Date: Mon, 2 Oct 2023 06:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:05:25.164414
- Title: Textbooks Are All You Need
- Title(参考訳): 教科書は必要なだけ
- Authors: Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio C\'esar Teodoro Mendes,
Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo
de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin
Wang, S\'ebastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee,
Yuanzhi Li
- Abstract要約: phi-1はトランスフォーマーベースのモデルで、1.3Bパラメータを持ち、8A100で4日間訓練された。
phi-1はHumanEvalで50.6%、MBPPで55.5%の精度を達成した。
- 参考スコア(独自算出の注目度): 66.17192488876695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce phi-1, a new large language model for code, with significantly
smaller size than competing models: phi-1 is a Transformer-based model with
1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook
quality" data from the web (6B tokens) and synthetically generated textbooks
and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains
pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays
surprising emergent properties compared to phi-1-base, our model before our
finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller
model with 350M parameters trained with the same pipeline as phi-1 that still
achieves 45% on HumanEval.
- Abstract(参考訳): phi-1は1.3Bパラメータを持つトランスフォーマーベースのモデルで、8A100sで4日間トレーニングされ、Webから `textbook Quality" データのセレクション(6Bトークン)と、GPT-3.5(1Bトークン)で合成生成された教科書とエクササイズを使用しています。
この小さなスケールにもかかわらず、phi-1はHumanEvalで50.6%、MBPPで55.5%の精度でパス@1に達する。
また、コーディング演習のデータセットを微調整する前のモデルである phi-1-base や、HumanEval で 45% を達成する phi-1-small と同じパイプラインで 350M のパラメータをトレーニングした小さなモデルである phi-1-small と比較すると、驚くべき創発的な特性も示しています。
関連論文リスト
- Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [289.9290405258526]
我々は3.3兆のトークンでトレーニングされた38億のパラメータ言語モデルであるphi-3-miniを紹介する。
MMLUでは69%、MTベンチでは8.38である。
本稿では, phi-3.5-mini, phi-3.5-MoE, phi-3.5-Visionの3モデルを紹介する。
論文 参考訳(メタデータ) (2024-04-22T14:32:33Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Unraveling the Mystery of Scaling Laws: Part I [39.967120253159614]
法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。
OpenAIのオリジナルのスケーリング法論文は、正確なスケーリング法則を導出するのに必要な詳細を公表していない。
1M60Mのパラメータしか持たないモデルでトレーニングすることで、スケーリング法則式における全ての定数項をステップバイステップで推定する。
論文 参考訳(メタデータ) (2024-03-11T10:05:29Z) - Textbooks Are All You Need II: phi-1.5 technical report [55.6940110946465]
我々は、新しい13億のパラメータモデル textbfphi-1.5を作成し、5倍のモデルに匹敵する自然言語タスクのパフォーマンスを実現した。
textbfphi-1.5はより大きな言語モデルの特徴の多くを示している。
我々はこれらの緊急トピックに関するさらなる研究を促進するために textbfphi-1.5 をオープンソース化した。
論文 参考訳(メタデータ) (2023-09-11T14:01:45Z) - Predicting Issue Types with seBERT [85.74803351913695]
seBERT は BERT アーキテクチャに基づいて開発されたモデルであるが、ゼロからソフトウェア工学のデータで訓練された。
問題型予測の課題に対して,NLBSEの課題に対して,このモデルを微調整した。
我々のモデルは、リコールとプリシシオの3つのイシュータイプすべてに対して、F1スコア全体の85.7%を達成するためのベースラインであるfastTextを支配している。
論文 参考訳(メタデータ) (2022-05-03T06:47:13Z) - OPT: Open Pre-trained Transformer Language Models [99.60254017109551]
125Mから175Bのパラメータからなるデコーダのみの事前学習トランスであるOpen Pre-trained Transformers (OPT)を提案する。
OPT-175BはGPT-3に匹敵するが, 炭素フットプリントの1/7しか必要としない。
論文 参考訳(メタデータ) (2022-05-02T17:49:50Z) - Switch Transformers: Scaling to Trillion Parameter Models with Simple
and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。
我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。
我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文 参考訳(メタデータ) (2021-01-11T16:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。