論文の概要: Algorithmic progress in language models
- arxiv url: http://arxiv.org/abs/2403.05812v1
- Date: Sat, 9 Mar 2024 06:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:11:33.589076
- Title: Algorithmic progress in language models
- Title(参考訳): 言語モデルにおけるアルゴリズムの進歩
- Authors: Anson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan
Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla
- Abstract要約: 本研究では、ディープラーニングの出現以来、事前学習言語モデルのアルゴリズムが改善した速度について検討する。
WikitextとPenn Treebankの2012-2023年における200以上の言語モデル評価データセットを使用する。
設定された性能閾値に達するのに必要な計算量は,約8ヶ月毎に半減し,95%の信頼区間が約5~14ヶ月であることがわかった。
- 参考スコア(独自算出の注目度): 1.7402659488193557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the rate at which algorithms for pre-training language models
have improved since the advent of deep learning. Using a dataset of over 200
language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we
find that the compute required to reach a set performance threshold has halved
approximately every 8 months, with a 95% confidence interval of around 5 to 14
months, substantially faster than hardware gains per Moore's Law. We estimate
augmented scaling laws, which enable us to quantify algorithmic progress and
determine the relative contributions of scaling models versus innovations in
training algorithms. Despite the rapid pace of algorithmic progress and the
development of new architectures such as the transformer, our analysis reveals
that the increase in compute made an even larger contribution to overall
performance improvements over this time period. Though limited by noisy
benchmark data, our analysis quantifies the rapid progress in language
modeling, shedding light on the relative contributions from compute and
algorithms.
- Abstract(参考訳): 本研究では,ディープラーニングの出現以来,事前学習言語モデルのアルゴリズムが向上した速度について検討する。
2012-2023年のWikitextとPenn Treebankの200以上の言語モデル評価データセットを用いて、設定されたパフォーマンスしきい値に達するために必要な計算が約8ヶ月に半減し、95%の信頼区間は約5~14ヶ月となり、ムーアの法則によるハードウェアゲインよりも大幅に高速であることが判明した。
拡張スケーリング則を推定し,アルゴリズムの進歩を定量化し,スケーリングモデルの相対的貢献度とトレーニングアルゴリズムの革新度を判定する。
アルゴリズムの急速な進歩と、transformerのような新しいアーキテクチャの開発にもかかわらず、計算量の増加は、この期間の全体的なパフォーマンス改善にさらに大きな貢献をしたことが明らかとなった。
ノイズの多いベンチマークデータによって制限されるが、我々の分析は言語モデリングの急速な進歩を定量化し、計算とアルゴリズムからの相対的な貢献を隠蔽する。
関連論文リスト
- From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - Adaptive Sampling for Deep Learning via Efficient Nonparametric Proxies [35.29595714883275]
我々は,Nadaraya-Watson推定器に対する効率的なスケッチベース近似を開発した。
サンプリングアルゴリズムは,4つのデータセットに対して,壁面時間と精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-11-22T18:40:18Z) - Benchmarking Neural Network Training Algorithms [46.39165332979669]
トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。
コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。
固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
論文 参考訳(メタデータ) (2023-06-12T15:21:02Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Algorithmic progress in computer vision [0.8547032097715571]
ImageNetにおける画像分類のアルゴリズム的進歩について検討する。
アルゴリズムの改良は、コンピュータビジョンの進歩のための計算のスケーリングと同じくらい重要であることが判明した。
計算増強アルゴリズムの進歩は、ムーアの法則に付随する速度の2倍の速度で行われる。
論文 参考訳(メタデータ) (2022-12-10T00:18:05Z) - Revisiting Neural Scaling Laws in Language and Vision [43.57394336742374]
我々は、最適なパラメータを報告するのではなく、外挿損失に基づくより厳密な方法論を論じる。
本稿では,学習曲線から法則パラメータのスケーリングを確実に推定する手法を提案する。
複数のドメインにまたがる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。
論文 参考訳(メタデータ) (2022-09-13T09:41:51Z) - Scalable computation of prediction intervals for neural networks via
matrix sketching [79.44177623781043]
既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順を変更する必要がある。
本研究では、与えられたトレーニングされたニューラルネットワークに適用し、近似予測間隔を生成できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-06T13:18:31Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。
我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文 参考訳(メタデータ) (2020-08-29T14:58:26Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z) - Measuring the Algorithmic Efficiency of Neural Networks [1.1108287264548806]
分類器をAlexNetレベルにトレーニングするために必要な浮動小数点演算数は,2012年から2019年にかけて44倍に減少した。
これは、アルゴリズムの効率が7年間に16ヶ月毎に倍増することに対応する。
我々は、ハードウェアとアルゴリズムの効率が乗じて増加し、意味のある地平線を越えて同様のスケールにすることができることを観察し、AIの進歩のよいモデルが両方の測度を統合するべきであることを示唆している。
論文 参考訳(メタデータ) (2020-05-08T22:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。