論文の概要: Reconciling Kaplan and Chinchilla Scaling Laws
- arxiv url: http://arxiv.org/abs/2406.12907v2
- Date: Wed, 18 Sep 2024 10:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 22:53:23.256940
- Title: Reconciling Kaplan and Chinchilla Scaling Laws
- Title(参考訳): カプランとチンチラスケーリング法の再検討
- Authors: Tim Pearce, Jinyeop Song,
- Abstract要約: 本稿では,カプランの当初の過大評価の主な原因を説明することによって,チンチラのスケーリング係数を再確認する。
第2のコントリビューションとして、報告された損失と計算の関係の相違について説明する。
- 参考スコア(独自算出の注目度): 2.6238635410101443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kaplan et al. [2020] (`Kaplan') and Hoffmann et al. [2022] (`Chinchilla') studied the scaling behavior of transformers trained on next-token language prediction. These studies produced different estimates for how the number of parameters ($N$) and training tokens ($D$) should be set to achieve the lowest possible loss for a given compute budget ($C$). Kaplan: $N_\text{optimal} \propto C^{0.73}$, Chinchilla: $N_\text{optimal} \propto C^{0.50}$. This paper finds that much of this discrepancy can be attributed to Kaplan counting non-embedding rather than total parameters, combined with their analysis being performed at small scale. Simulating the Chinchilla study under these conditions produces biased scaling coefficients close to Kaplan's. Hence, this paper reaffirms Chinchilla's scaling coefficients, by explaining the primary cause of Kaplan's original overestimation. As a second contribution, the paper explains differences in the reported relationships between loss and compute. These findings lead us to recommend that future scaling studies use total parameters and compute.
- Abstract(参考訳): Kaplan et al [2020] (`Kaplan') と Hoffmann et al [2022] (`Chinchilla') は、次の言語予測に基づいてトレーニングされたトランスフォーマーのスケーリング挙動を研究した。
これらの研究は、パラメータ(N$)とトレーニングトークン(D$)の数を、与えられた計算予算(C$)の最小損失を達成するために設定する方法について、様々な見積もりを生み出した。
Kaplan: $N_\text{optimal} \propto C^{0.73}$, Chinchilla: $N_\text{optimal} \propto C^{0.50}$
本稿では,これらの不一致の多くは,総パラメータではなく非埋め込みを数えるKaplanに起因していると考えられる。
これらの条件下でのチンチラの研究をシミュレーションすると、カプランに近い偏りのあるスケーリング係数が生成される。
そこで,本稿では,カプランの当初の過大評価の主な原因を説明することによって,チンチラのスケーリング係数を再確認する。
第2のコントリビューションとして、報告された損失と計算の関係の相違について説明する。
これらの結果から、将来のスケーリング研究は総パラメータと計算を使うことを推奨する。
関連論文リスト
- Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Resolving Discrepancies in Compute-Optimal Scaling of Language Models [42.82944266028316]
2つのデータセット上でKaplanスケーリング法則を再現することにより、その相違を説明できる。
注意深い学習率の低下は、そのスケーリング法則の妥当性に欠かせないものである。
論文 参考訳(メタデータ) (2024-06-27T13:02:43Z) - Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws [14.546425605156578]
我々は,所与の品質と予測要求のモデルをトレーニングし,展開するために,最適LLMパラメータ数と事前学習データサイズを計算するために,Chinchillaスケーリング法を変更した。
我々は,パラメータ単位のトークンを極端な範囲にスケールするにつれて,モデルの品質が向上し続けることを確認するために,さまざまなサイズとパラメータ数の47モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-31T10:53:58Z) - Minimal Random Code Learning with Mean-KL Parameterization [2.3814052021083354]
変分ベイズニューラルネットワークの圧縮に用いる最小ランダム符号学習(MIRACLE)の2つの変種について検討した。
MIRACLEは、重量後部$Q_mathbfw$に対して強力で条件付きガウス変分近似を実装し、相対エントロピー符号化を用いて重量サンプルを後部から圧縮する。
本研究では,平均-KLパラメータ化による変分学習が2倍の速度で収束し,圧縮後の予測性能が維持されることを示す。
論文 参考訳(メタデータ) (2023-07-15T14:46:43Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Computationally and Statistically Efficient Truncated Regression [36.3677715543994]
計算的かつ統計的に効率的な線形回帰の古典的問題に対する推定器を提供する。
提案手法では, トランキャット標本の負の対数類似度に代わることなく, プロジェクテッド・Descent Gradient (PSGD) を用いて推定する。
本稿では,SGDが単一層ニューラルネットワークの雑音活性化関数のパラメータを学習することを示す。
論文 参考訳(メタデータ) (2020-10-22T19:31:30Z) - Nonparametric Estimation of the Fisher Information and Its Applications [82.00720226775964]
本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。
Bhattacharyaにより提案された推定器を再検討し、収束率の向上を導出する。
クリッピング推定器と呼ばれる新しい推定器を提案する。
論文 参考訳(メタデータ) (2020-05-07T17:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。