論文の概要: Scaling Laws for Deep Learning
- arxiv url: http://arxiv.org/abs/2108.07686v1
- Date: Tue, 17 Aug 2021 15:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:12:57.522975
- Title: Scaling Laws for Deep Learning
- Title(参考訳): ディープラーニングのためのスケーリング法則
- Authors: Jonathan S. Rosenfeld
- Abstract要約: この論文では、これらのコストの根底にあるアルゴリズム的および方法論的制約に対処する体系的なアプローチを採っている。
まず、ディープラーニングトレーニングとプルーニングが、スケーリング法則によって予測可能であり、管理されていることを実証する。
そして、ノイズのない実現可能なケースの探索を通して、DLは実際、低いエラー限界からかなり離れた誤差源によって支配されていることを示す。
- 参考スコア(独自算出の注目度): 1.90365714903665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Running faster will only get you so far -- it is generally advisable to first
understand where the roads lead, then get a car ...
The renaissance of machine learning (ML) and deep learning (DL) over the last
decade is accompanied by an unscalable computational cost, limiting its
advancement and weighing on the field in practice. In this thesis we take a
systematic approach to address the algorithmic and methodological limitations
at the root of these costs. We first demonstrate that DL training and pruning
are predictable and governed by scaling laws -- for state of the art models and
tasks, spanning image classification and language modeling, as well as for
state of the art model compression via iterative pruning. Predictability, via
the establishment of these scaling laws, provides the path for principled
design and trade-off reasoning, currently largely lacking in the field. We then
continue to analyze the sources of the scaling laws, offering an
approximation-theoretic view and showing through the exploration of a noiseless
realizable case that DL is in fact dominated by error sources very far from the
lower error limit. We conclude by building on the gained theoretical
understanding of the scaling laws' origins. We present a conjectural path to
eliminate one of the current dominant error sources -- through a data bandwidth
limiting hypothesis and the introduction of Nyquist learners -- which can, in
principle, reach the generalization error lower limit (e.g. 0 in the noiseless
case), at finite dataset size.
- Abstract(参考訳): 速く走ることは、今までにない ― 道路がどこに向かっているのかを最初に理解し、それから車を手に入れることは、一般的に推奨される。
機械学習(ML)とディープラーニング(DL)の過去10年間のルネッサンスには計算コストが伴う。
本論文では,コストの根底にあるアルゴリズム的・方法論的制約に対処するための体系的アプローチを提案する。
まず、私たちはDLトレーニングとプルーニングが予測可能であり、アートモデルとタスクの状態、画像分類と言語モデリング、反復プルーニングによるアートモデル圧縮の状態のスケーリング法によって管理されていることを実証した。
予測可能性(predictability)は、これらのスケーリング法則の確立を通じて、原則化された設計とトレードオフ推論の道筋を提供する。
その後、我々はスケーリング法則の源泉を解析し、近似理論的なビューを提供し、DLが実際に低いエラー限界からかなり離れた誤差源に支配されているというノイズのない実現可能なケースの探索を通して示す。
我々は、スケーリングの法則の起源を理論的に理解することで結論づける。
本稿では、データ帯域幅制限仮説とNyquist学習者の導入を通じて、現在支配的なエラー源の1つを排除し、原則として、一般化エラーの低い限界(例えば、Nyquist学習者)に到達できるようにする。
0) で, 有限データセットサイズであった。
関連論文リスト
- The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Has LLM Reached the Scaling Ceiling Yet? Unified Insights into LLM Regularities and Constraints [0.0]
大きな言語モデル(LLM)は目覚ましい能力を示していますが、そのスケーラビリティには重要な疑問があります。
本稿では,LLMのスケーリング力学を説明するために,数学的および統計的知見を統合する統一理論フレームワークを開発する。
今後の進歩には、ブルートフォーススケーリングから、アーキテクチャ、データ品質、トレーニングパラダイムの革新に移行する必要があります。
論文 参考訳(メタデータ) (2024-12-21T02:19:07Z) - Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。
データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文 参考訳(メタデータ) (2024-06-28T02:20:54Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Reproducible scaling laws for contrastive language-image learning [42.354402731615444]
コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を,パブリックLAIONデータセットとオープンソースOpenCLIPリポジトリを用いて検討する。
私たちの大規模な実験には、最大20億のイメージテキストペアでトレーニングされたモデルと、複数の下流タスクに対する電力法スケーリングの特定が含まれています。
OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法則において重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-12-14T10:24:50Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。