論文の概要: Compute Trends Across Three Eras of Machine Learning
- arxiv url: http://arxiv.org/abs/2202.05924v1
- Date: Fri, 11 Feb 2022 22:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 13:10:45.743124
- Title: Compute Trends Across Three Eras of Machine Learning
- Title(参考訳): 機械学習の3つの時代にわたる計算トレンド
- Authors: Jaime Sevilla, Lennart Heim, Anson Ho, Tamay Besiroglu, Marius
Hobbhahn and Pablo Villalobos
- Abstract要約: 2010年以前、トレーニング計算はムーアの法則に従って成長し、約20ヶ月毎に倍増した。
2010年代初頭のディープラーニングの出現以来、トレーニング計算のスケーリングは加速し、約6ヶ月毎に倍増している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compute, data, and algorithmic advances are the three fundamental factors
that guide the progress of modern Machine Learning (ML). In this paper we study
trends in the most readily quantified factor - compute. We show that before
2010 training compute grew in line with Moore's law, doubling roughly every 20
months. Since the advent of Deep Learning in the early 2010s, the scaling of
training compute has accelerated, doubling approximately every 6 months. In
late 2015, a new trend emerged as firms developed large-scale ML models with 10
to 100-fold larger requirements in training compute. Based on these
observations we split the history of compute in ML into three eras: the Pre
Deep Learning Era, the Deep Learning Era and the Large-Scale Era. Overall, our
work highlights the fast-growing compute requirements for training advanced ML
systems.
- Abstract(参考訳): 計算、データ、アルゴリズムの進歩は、現代の機械学習(ML)の進歩を導く3つの基本的な要素である。
本稿では,最も容易に定量化できる因子である計算の傾向について検討する。
2010年以前、トレーニング計算はムーアの法則に従って成長し、およそ20ヶ月毎に倍増した。
2010年代初頭のディープラーニングの出現以来、トレーニング計算のスケーリングは加速し、約6ヶ月毎に倍増している。
2015年末、企業が10倍から100倍のトレーニング計算要件を持つ大規模mlモデルを開発したことで、新たなトレンドが浮上した。
これらの観測に基づいて,MLにおける計算の歴史を,事前学習時代,深層学習時代,大規模学習時代という3つの時代に分けた。
全体として、我々の研究は、高度なMLシステムのトレーニングにおいて急速に成長する計算要件を強調している。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - The Fine-Grained Complexity of Gradient Computation for Training Large
Language Models [12.853829771559916]
大規模言語モデル(LLM)は、ここ数年で基本的な貢献をしている。
本研究では,1層注目ネットワークの損失関数勾配の計算の難易度問題に対して,ほぼ同じ結果を示す。
論文 参考訳(メタデータ) (2024-02-07T00:45:31Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural
Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。
LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。
トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2023-03-18T16:45:54Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。
トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。
成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文 参考訳(メタデータ) (2022-03-11T19:05:42Z) - Large-Scale Training System for 100-Million Classification at Alibaba [43.58719630882661]
極度の分類は 深層学習に欠かせない話題になっています
最後の出力層におけるメモリと爆発のため、数百万のクラスでディープモデルをトレーニングするのは非常に困難です。
トレーニングプロセスを実現可能にするために、ハイブリッド並列トレーニングフレームワークを構築しています。
第2に,GPUメモリ使用量と計算コストの両方を削減するKNNソフトマックスという新しいソフトマックス変種を提案する。
論文 参考訳(メタデータ) (2021-02-09T06:53:31Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - Measuring the Algorithmic Efficiency of Neural Networks [1.1108287264548806]
分類器をAlexNetレベルにトレーニングするために必要な浮動小数点演算数は,2012年から2019年にかけて44倍に減少した。
これは、アルゴリズムの効率が7年間に16ヶ月毎に倍増することに対応する。
我々は、ハードウェアとアルゴリズムの効率が乗じて増加し、意味のある地平線を越えて同様のスケールにすることができることを観察し、AIの進歩のよいモデルが両方の測度を統合するべきであることを示唆している。
論文 参考訳(メタデータ) (2020-05-08T22:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。