論文の概要: Reconciling Kaplan and Chinchilla Scaling Laws
- arxiv url: http://arxiv.org/abs/2406.12907v1
- Date: Wed, 12 Jun 2024 13:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-23 13:15:04.297530
- Title: Reconciling Kaplan and Chinchilla Scaling Laws
- Title(参考訳): カプランとチンチラスケーリング法の再検討
- Authors: Tim Pearce, Jinyeop Song,
- Abstract要約: カプランとホフマンは、次の言語予測に基づいて訓練されたトランスフォーマーのスケーリング挙動を研究した。
このノートは、これらの不一致の多くは、総パラメータではなく非埋め込みを数えているKaplanに起因している。
カプランの当初の過大評価の原因を説明することで、チンチラのスケーリング係数を再確認した。
- 参考スコア(独自算出の注目度): 2.6238635410101443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kaplan et al. [2020] (`Kaplan') and Hoffmann et al. [2022] (`Chinchilla') studied the scaling behavior of transformers trained on next-token language prediction. These studies produced different estimates for how the number of parameters ($N$) and training tokens ($D$) should be set to achieve the lowest possible loss for a given compute budget ($C$). Kaplan: $N_\text{optimal} \propto C^{0.73}$, Chinchilla: $N_\text{optimal} \propto C^{0.50}$. This note finds that much of this discrepancy can be attributed to Kaplan counting non-embedding rather than total parameters, combined with their analysis being performed at small scale. Simulating the Chinchilla study under these conditions produces biased scaling coefficients close to Kaplan's. Hence, this note reaffirms Chinchilla's scaling coefficients, by explaining the cause of Kaplan's original overestimation.
- Abstract(参考訳): Kaplan et al [2020] (`Kaplan') と Hoffmann et al [2022] (`Chinchilla') は、次の言語予測に基づいてトレーニングされたトランスフォーマーのスケーリング挙動を研究した。
これらの研究は、パラメータ(N$)とトレーニングトークン(D$)の数を、与えられた計算予算(C$)の最小損失を達成するために設定する方法について、様々な見積もりを生み出した。
Kaplan: $N_\text{optimal} \propto C^{0.73}$, Chinchilla: $N_\text{optimal} \propto C^{0.50}$
このノートは、これらの不一致の多くは、総パラメータではなく非埋め込みを数えることと、その分析を小さなスケールで行うことによるものである。
これらの条件下でのチンチラの研究をシミュレーションすると、カプランに近い偏りのあるスケーリング係数が生成される。
したがって、このメモは、カプランの元々の過大評価の原因を説明することによって、チンチラのスケーリング係数を再確認する。
関連論文リスト
- Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Resolving Discrepancies in Compute-Optimal Scaling of Language Models [42.82944266028316]
2つのデータセット上でKaplanスケーリング法則を再現することにより、その相違を説明できる。
注意深い学習率の低下は、そのスケーリング法則の妥当性に欠かせないものである。
論文 参考訳(メタデータ) (2024-06-27T13:02:43Z) - Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws [14.546425605156578]
我々は,所与の品質と予測要求のモデルをトレーニングし,展開するために,最適LLMパラメータ数と事前学習データサイズを計算するために,Chinchillaスケーリング法を変更した。
我々は,パラメータ単位のトークンを極端な範囲にスケールするにつれて,モデルの品質が向上し続けることを確認するために,さまざまなサイズとパラメータ数の47モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-31T10:53:58Z) - Minimal Random Code Learning with Mean-KL Parameterization [2.3814052021083354]
変分ベイズニューラルネットワークの圧縮に用いる最小ランダム符号学習(MIRACLE)の2つの変種について検討した。
MIRACLEは、重量後部$Q_mathbfw$に対して強力で条件付きガウス変分近似を実装し、相対エントロピー符号化を用いて重量サンプルを後部から圧縮する。
本研究では,平均-KLパラメータ化による変分学習が2倍の速度で収束し,圧縮後の予測性能が維持されることを示す。
論文 参考訳(メタデータ) (2023-07-15T14:46:43Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Computationally and Statistically Efficient Truncated Regression [36.3677715543994]
計算的かつ統計的に効率的な線形回帰の古典的問題に対する推定器を提供する。
提案手法では, トランキャット標本の負の対数類似度に代わることなく, プロジェクテッド・Descent Gradient (PSGD) を用いて推定する。
本稿では,SGDが単一層ニューラルネットワークの雑音活性化関数のパラメータを学習することを示す。
論文 参考訳(メタデータ) (2020-10-22T19:31:30Z) - Nonparametric Estimation of the Fisher Information and Its Applications [82.00720226775964]
本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。
Bhattacharyaにより提案された推定器を再検討し、収束率の向上を導出する。
クリッピング推定器と呼ばれる新しい推定器を提案する。
論文 参考訳(メタデータ) (2020-05-07T17:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。