論文の概要: Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments
- arxiv url: http://arxiv.org/abs/2202.06387v1
- Date: Sun, 13 Feb 2022 19:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 15:39:56.471317
- Title: Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments
- Title(参考訳): 顕微鏡下のスケーリング則:小規模実験による変圧器性能の予測
- Authors: Maor Ivgi, Yair Carmon and Jonathan Berant
- Abstract要約: 本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
- 参考スコア(独自算出の注目度): 42.793379799720434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural scaling laws define a predictable relationship between a model's
parameter count and its performance after training in the form of a power law.
However, most research to date has not explicitly investigated whether scaling
laws can be used to accelerate model development. In this work, we perform such
an empirical investigation across a wide range of language understanding tasks,
starting from models with as few as 10K parameters, and evaluate downstream
performance across 9 language understanding tasks. We find that scaling laws
emerge at finetuning time in some NLP tasks, and that they can also be
exploited for debugging convergence when training large models. Moreover, for
tasks where scaling laws exist, they can be used to predict the performance of
larger models, which enables effective model selection. However, revealing
scaling laws requires careful hyperparameter tuning and multiple runs for the
purpose of uncertainty estimation, which incurs additional overhead, partially
offsetting the computational benefits.
- Abstract(参考訳): ニューラルネットワークのスケーリング法則は、モデルのパラメータ数とトレーニング後のパフォーマンスとの予測可能な関係をパワーロームの形式で定義する。
しかし、現在までのほとんどの研究は、スケーリング法則がモデル開発の加速に利用できるかどうかを明示的に調査していない。
本研究では,最大10kパラメータのモデルから始まり,9つの言語理解タスクにおけるダウンストリーム性能を評価する,幅広い言語理解タスクを対象とした経験的調査を行う。
いくつかのNLPタスクでは,スケーリング法則が微調整時に出現し,大規模モデルのトレーニングにおいて,デバッギングコンバージェンスに利用することもできる。
さらに,スケーリング法則が存在するタスクに対しては,より大規模なモデルの性能予測に使用することができるため,効果的なモデル選択が可能となる。
しかしながら、スケーリング法則を明らかにするには、不確実性推定のために注意深いハイパーパラメータチューニングと複数の実行が必要となる。
関連論文リスト
- A Simple Model of Inference Scaling Laws [1.3597551064547502]
スケーリング法則を推論の文脈で研究し、特に複数の推論による性能向上について検討する。
我々の単純なフレームワークは、推論スケーリングを他の既知のスケーリング法則に組み込むための基盤となる。
論文 参考訳(メタデータ) (2024-10-21T18:00:06Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Scaling Laws Behind Code Understanding Model [4.846512516189021]
コード理解タスクのスケーリング法則について,学習データ,モデルサイズ,計算資源を用いて検討する。
我々は、より多くのコンピューティングリソースを使用して、1.5Bパラメータを持つCoLSBERTという名前の大規模コード理解モデルを大規模データセットでトレーニングする。
論文 参考訳(メタデータ) (2024-02-20T08:31:42Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。