論文の概要: Rethinking Conventional Wisdom in Machine Learning: From Generalization to Scaling
- arxiv url: http://arxiv.org/abs/2409.15156v1
- Date: Mon, 23 Sep 2024 16:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:13:28.257328
- Title: Rethinking Conventional Wisdom in Machine Learning: From Generalization to Scaling
- Title(参考訳): 機械学習における伝統的な知恵を再考する: 一般化からスケーリングへ
- Authors: Lechao Xiao,
- Abstract要約: 大規模言語の事前学習とスケーリング法則の発見は、機械学習のパラダイムシフトを表している。
本稿では,スケール中心の大規模言語モデル (LLM) 時代においてもはや成り立たないような,レギュラー化に基づくいくつかの重要な原則について検討する。
- 参考スコア(独自算出の注目度): 12.809756439379273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable success of large language pretraining and the discovery of scaling laws signify a paradigm shift in machine learning. Notably, the primary objective has evolved from minimizing generalization error to reducing approximation error, and the most effective strategy has transitioned from regularization (in a broad sense) to scaling up models. This raises a critical question: Do the established principles that proved successful in the generalization-centric era remain valid in this new era of scaling? This paper examines several influential regularization-based principles that may no longer hold true in the scaling-centric, large language model (LLM) era. These principles include explicit L2 regularization and implicit regularization through small batch sizes and large learning rates. Additionally, we identify a new phenomenon termed ``scaling law crossover,'' where two scaling curves intersect at a certain scale, implying that methods effective at smaller scales may not generalize to larger ones. Together, these observations highlight two fundamental questions within this new paradigm: $\bullet$ Guiding Principles for Scaling: If regularization is no longer the primary guiding principle for model design, what new principles are emerging to guide scaling? $\bullet$ Model Comparison at Scale: How to reliably and effectively compare models at the scale where only a single experiment is feasible?
- Abstract(参考訳): 大規模言語の事前学習の成功とスケーリング法則の発見は、機械学習のパラダイムシフトを表している。
特に、主目的は一般化誤差の最小化から近似誤差の削減へと発展し、最も効果的な戦略は正規化(広い意味で)からモデルのスケールアップへと移行した。
一般化中心の時代で成功した確立された原則は、この新たなスケーリングの時代においても有効か?
本稿では,スケール中心の大規模言語モデル (LLM) 時代においてもはや成り立たないような,レギュラー化に基づくいくつかの重要な原則について検討する。
これらの原則には、小さなバッチサイズと大きな学習率による明示的なL2正規化と暗黙の正規化が含まれる。
さらに、あるスケールで2つのスケーリング曲線が交差する「スケーリング法則クロスオーバー」と呼ばれる新しい現象を同定し、より小さなスケールで有効な方法がより大きなスケールに一般化できないことを示唆する。
$\bullet$ Guiding Principles for Scaling: もし正規化がもはやモデル設計の主要な指針ではないなら、スケーリングを導くための新しい原則が登場しますか?
$\bullet$ Model Comparison at Scale: 1つの実験しか実現不可能なスケールでモデルを確実かつ効果的に比較する方法?
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Generative models for scalar field theories: how to deal with poor
scaling? [0.0]
生成モデルは格子ゲージ場構成を生成するための標準アルゴリズムの代替として提案されている。
大規模格子の受容率に制限のある現在のモデルについて検討し,有効場理論に触発された新しいアーキテクチャを考察し,スケーリング特性を改善する。
論文 参考訳(メタデータ) (2023-01-04T09:25:45Z) - Just a Matter of Scale? Reevaluating Scale Equivariance in Convolutional
Neural Networks [3.124871781422893]
畳み込みネットワークはスケールの変動に不変ではなく、異なる大きさのオブジェクトに一般化できない。
重みを並列に共有した再スケールカーネルを多数適用し,最も適切なカーネルを選択するモデル群を新たに導入する。
STIRにおける実験結果から,既存の手法と提案手法の両方が,標準的な畳み込みよりもスケール全体の一般化を向上できることが示唆された。
論文 参考訳(メタデータ) (2022-11-18T15:27:05Z) - Autocalibration and Tweedie-dominance for Insurance Pricing with Machine
Learning [0.0]
逸脱の最小化には, 下位部分モーメントの重み付き差分の積分と, 特定のスケールで測定されたバイアスとのトレードオフが伴うことが示された。
バイアスを補正する新しい手法は、分析にさらに局所的なGLMステップを追加する。
凸順序は、競合するモデルを比較する自然なツールであるように見える。
論文 参考訳(メタデータ) (2021-03-05T12:40:30Z) - Muddling Labels for Regularization, a novel approach to generalization [0.0]
一般化は機械学習の中心的な問題である。
本稿では,データ分割のない一般化を実現する新しい手法を提案する。
これはモデルが過度に適合する傾向を直接定量化する新しいリスク尺度に基づいている。
論文 参考訳(メタデータ) (2021-02-17T14:02:30Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。