論文の概要: Machine Learning Model Sizes and the Parameter Gap
- arxiv url: http://arxiv.org/abs/2207.02852v1
- Date: Tue, 5 Jul 2022 20:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-09 07:54:40.175318
- Title: Machine Learning Model Sizes and the Parameter Gap
- Title(参考訳): 機械学習モデルのサイズとパラメータギャップ
- Authors: Pablo Villalobos, Jaime Sevilla, Tamay Besiroglu, Lennart Heim, Anson
Ho, Marius Hobbhahn
- Abstract要約: 我々は、キュレートされたデータセットを用いて、注目すべき機械学習システムのモデルサイズを時間とともに調査する。
1950年から2018年にかけて、言語モデルのモデルサイズは7桁の規模で着実に増加した。
2020年以降、20Bパラメータ以下の言語モデルが多数存在し、70Bパラメータよりも多くのモデルがあるが、20-70Bパラメータ範囲のモデルが不足している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study trends in model size of notable machine learning systems over time
using a curated dataset. From 1950 to 2018, model size in language models
increased steadily by seven orders of magnitude. The trend then accelerated,
with model size increasing by another five orders of magnitude in just 4 years
from 2018 to 2022. Vision models grew at a more constant pace, totaling 7
orders of magnitude of growth between 1950 and 2022.
We also identify that, since 2020, there have been many language models below
20B parameters, many models above 70B parameters, but a scarcity of models in
the 20-70B parameter range. We refer to that scarcity as the parameter gap.
We provide some stylized facts about the parameter gap and propose a few
hypotheses to explain it. The explanations we favor are: (a) increasing model
size beyond 20B parameters requires adopting different parallelism techniques,
which makes mid-sized models less cost-effective, (b) GPT-3 was one order of
magnitude larger than previous language models, and researchers afterwards
primarily experimented with bigger models to outperform it. While these
dynamics likely exist, and we believe they play some role in generating the
gap, we don't have high confidence that there are no other, more important
dynamics at play.
- Abstract(参考訳): 本研究では,データセットを用いて,機械学習システムのモデルサイズに関するトレンドを時間とともに調査する。
1950年から2018年にかけて、言語モデルのモデルサイズは7桁に着実に増加した。
この傾向はその後加速し、モデルのサイズは2018年から2022年までのわずか4年でさらに5桁大きくなった。
ビジョンモデルはより一定のペースで成長し、1950年から2022年の間に7桁の成長を遂げた。
また,2020年以降,20bパラメータ以下の言語モデルが多数存在し,70bパラメータを超えるモデルが多数存在するが,20~70bパラメータの範囲ではモデルの不足が確認された。
私たちはこの不足をパラメータギャップと呼びます。
パラメータギャップに関するスタイライズされた事実を提案し,それを説明するための仮説を提案する。
私たちが好む説明は
(a) 20Bパラメータを超えるモデルサイズの増加には、異なる並列化手法を採用する必要がある。
(b) GPT-3は従来の言語モデルよりも1桁大きく、その後研究者はそれを上回る性能を示すために主により大きなモデルを試した。
これらのダイナミクスはおそらく存在しており、ギャップを生み出すのに何らかの役割を果たしていると信じていますが、他の、より重要なダイナミクスが役に立たないという確信はありません。
関連論文リスト
- eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Maximizing Use-Case Specificity through Precision Model Tuning [0.0]
バイオメディカル情報検索における4つのトランスフォーマーベース言語モデルの性能の詳細な分析を行う。
この結果から,10Bパラメータとドメイン固有のデータセットを微調整した小さなモデルでは,高い特定の質問に対して,より大きな言語モデルよりも優れる傾向が示唆された。
論文 参考訳(メタデータ) (2022-12-29T07:50:14Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2022-10-24T10:08:59Z) - Recurrent multiple shared layers in Depth for Neural Machine Translation [11.660776324473645]
本稿では,トランスフォーマーのエンコーダブロックとデコーダブロックを奥行き方向にループする再帰機構を持つ深層モデルを提案する。
深層トランス (20層エンコーダ, 6層デコーダ) と比較して, モデル性能と推論速度は類似しているが, モデルパラメータは前者の54.72%である。
論文 参考訳(メタデータ) (2021-08-23T21:21:45Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。