論文の概要: Machine Learning Model Sizes and the Parameter Gap
- arxiv url: http://arxiv.org/abs/2207.02852v1
- Date: Tue, 5 Jul 2022 20:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-09 07:54:40.175318
- Title: Machine Learning Model Sizes and the Parameter Gap
- Title(参考訳): 機械学習モデルのサイズとパラメータギャップ
- Authors: Pablo Villalobos, Jaime Sevilla, Tamay Besiroglu, Lennart Heim, Anson
Ho, Marius Hobbhahn
- Abstract要約: 我々は、キュレートされたデータセットを用いて、注目すべき機械学習システムのモデルサイズを時間とともに調査する。
1950年から2018年にかけて、言語モデルのモデルサイズは7桁の規模で着実に増加した。
2020年以降、20Bパラメータ以下の言語モデルが多数存在し、70Bパラメータよりも多くのモデルがあるが、20-70Bパラメータ範囲のモデルが不足している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study trends in model size of notable machine learning systems over time
using a curated dataset. From 1950 to 2018, model size in language models
increased steadily by seven orders of magnitude. The trend then accelerated,
with model size increasing by another five orders of magnitude in just 4 years
from 2018 to 2022. Vision models grew at a more constant pace, totaling 7
orders of magnitude of growth between 1950 and 2022.
We also identify that, since 2020, there have been many language models below
20B parameters, many models above 70B parameters, but a scarcity of models in
the 20-70B parameter range. We refer to that scarcity as the parameter gap.
We provide some stylized facts about the parameter gap and propose a few
hypotheses to explain it. The explanations we favor are: (a) increasing model
size beyond 20B parameters requires adopting different parallelism techniques,
which makes mid-sized models less cost-effective, (b) GPT-3 was one order of
magnitude larger than previous language models, and researchers afterwards
primarily experimented with bigger models to outperform it. While these
dynamics likely exist, and we believe they play some role in generating the
gap, we don't have high confidence that there are no other, more important
dynamics at play.
- Abstract(参考訳): 本研究では,データセットを用いて,機械学習システムのモデルサイズに関するトレンドを時間とともに調査する。
1950年から2018年にかけて、言語モデルのモデルサイズは7桁に着実に増加した。
この傾向はその後加速し、モデルのサイズは2018年から2022年までのわずか4年でさらに5桁大きくなった。
ビジョンモデルはより一定のペースで成長し、1950年から2022年の間に7桁の成長を遂げた。
また,2020年以降,20bパラメータ以下の言語モデルが多数存在し,70bパラメータを超えるモデルが多数存在するが,20~70bパラメータの範囲ではモデルの不足が確認された。
私たちはこの不足をパラメータギャップと呼びます。
パラメータギャップに関するスタイライズされた事実を提案し,それを説明するための仮説を提案する。
私たちが好む説明は
(a) 20Bパラメータを超えるモデルサイズの増加には、異なる並列化手法を採用する必要がある。
(b) GPT-3は従来の言語モデルよりも1桁大きく、その後研究者はそれを上回る性能を示すために主により大きなモデルを試した。
これらのダイナミクスはおそらく存在しており、ギャップを生み出すのに何らかの役割を果たしていると信じていますが、他の、より重要なダイナミクスが役に立たないという確信はありません。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations [52.11801730860999]
近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。
本稿では,エネルギーベースモデル,拡散モデル,アクションバリューマップ,生成的敵ネットワークなど,コミュニティが探求してきたさまざまなモデルについて述べる。
また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。
論文 参考訳(メタデータ) (2024-08-08T11:34:31Z) - Large Language Model Pruning [0.0]
LLMに特化したモデルプルーニング手法を提案する。
提案手法は深層学習モデルの説明可能性を強調する。
また、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。
論文 参考訳(メタデータ) (2024-05-24T18:22:15Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Maximizing Use-Case Specificity through Precision Model Tuning [0.0]
バイオメディカル情報検索における4つのトランスフォーマーベース言語モデルの性能の詳細な分析を行う。
この結果から,10Bパラメータとドメイン固有のデータセットを微調整した小さなモデルでは,高い特定の質問に対して,より大きな言語モデルよりも優れる傾向が示唆された。
論文 参考訳(メタデータ) (2022-12-29T07:50:14Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Recurrent multiple shared layers in Depth for Neural Machine Translation [11.660776324473645]
本稿では,トランスフォーマーのエンコーダブロックとデコーダブロックを奥行き方向にループする再帰機構を持つ深層モデルを提案する。
深層トランス (20層エンコーダ, 6層デコーダ) と比較して, モデル性能と推論速度は類似しているが, モデルパラメータは前者の54.72%である。
論文 参考訳(メタデータ) (2021-08-23T21:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。