Fugu-MT 論文翻訳(概要): Resolving Discrepancies in Compute-Optimal Scaling of Language Models

論文の概要: Resolving Discrepancies in Compute-Optimal Scaling of Language Models

arxiv url: http://arxiv.org/abs/2406.19146v2
Date: Thu, 25 Jul 2024 13:09:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-26 18:47:24.482201
Title: Resolving Discrepancies in Compute-Optimal Scaling of Language Models
Title（参考訳）: 言語モデルの最適スケーリングにおける不一致の解消
Authors: Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon,
Abstract要約: 2つのデータセット上でKaplanスケーリング法則を再現することにより、その相違を説明できる。注意深い学習率の低下は、そのスケーリング法則の妥当性に欠かせないものである。
参考スコア（独自算出の注目度）: 42.82944266028316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Kaplan et al. and Hoffmann et al. developed influential scaling laws for the optimal model size as a function of the compute budget, but these laws yield substantially different predictions. We explain the discrepancy by reproducing the Kaplan scaling law on two datasets (OpenWebText2 and RefinedWeb) and identifying three factors causing the difference: last layer computational cost, warmup duration, and scale-dependent optimizer tuning. With these factors corrected, we obtain excellent agreement with the Hoffmann et al. (i.e., "Chinchilla") scaling law. Counter to a hypothesis of Hoffmann et al., we find that careful learning rate decay is not essential for the validity of their scaling law. As a secondary result, we derive scaling laws for the optimal learning rate and batch size, finding that tuning the AdamW $\beta_2$ parameter is essential at lower batch sizes.
Abstract（参考訳）: Kaplan et al と Hoffmann et al は計算予算の関数として最適なモデルサイズに関する効果的なスケーリング法則を開発したが、これらの法則は実質的に異なる予測をもたらす。本稿では,2つのデータセット(OpenWebText2とRefinedWeb)上でKaplanスケーリング法則を再現し,その差の原因となる3つの要因(最終層計算コスト,ウォームアップ期間,スケール依存オプティマイザチューニング)を特定することによって,その相違を説明している。これらの因子を補正し、ホフマン・エ・アル(すなわち「チンチラ」)のスケーリング法と良好な合意を得る。ホフマンらによる仮説から、注意深い学習率の減衰は、スケーリング法則の妥当性に必須ではないことが分かる。その結果,AdamW $\beta_2$パラメータのチューニングはバッチサイズが低い場合に必須であることが判明し,最適学習率とバッチサイズに対するスケーリング法則を導出する。

関連論文リスト

Scaling Laws for Gradient Descent and Sign Descent for Linear Bigram Models under Zipf's Law [4.6193503399184275]
最近の研究は、トランスフォーマーベースの言語モデルの最初の層と最後の層を訓練する際の勾配降下による困難を浮き彫りにした。これらの研究は、テキストデータ中の単語の重み付き分布に、難易度が関係していることを示唆している。データが重い尾を持つ場合、問題はより困難であることを示す。
論文参考訳（メタデータ） (2025-05-25T16:43:51Z)
Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文参考訳（メタデータ） (2025-04-21T16:26:56Z)
Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models [46.959380978972206]
我々は、推論スケーリング法則(いわゆるテスト時間スケーリング法則)と計算最適推論について研究する。計算最適推論手法の理解と設計に向けた第一歩として,推論戦略のコストパフォーマンストレードオフについて検討した。この結果から,モデルパラメータのスケーリングよりも,推論戦略による推論計算のスケーリングの方が効率的であることが示唆された。
論文参考訳（メタデータ） (2024-08-01T17:16:04Z)
gzip Predicts Data-dependent Scaling Laws [2.5461535398221478]
我々は,PCFGの構文特性を調節することにより,様々な複雑さのトレーニングデータセットを生成する。本稿では,トレーニングデータのgzip圧縮性を考慮したLMのスケーリング法を提案する。
論文参考訳（メタデータ） (2024-05-26T20:33:08Z)
Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文参考訳（メタデータ） (2024-05-23T13:52:36Z)
Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-04T01:55:00Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws [14.546425605156578]
我々は,所与の品質と予測要求のモデルをトレーニングし,展開するために,最適LLMパラメータ数と事前学習データサイズを計算するために,Chinchillaスケーリング法を変更した。我々は,パラメータ単位のトークンを極端な範囲にスケールするにつれて,モデルの品質が向上し続けることを確認するために,さまざまなサイズとパラメータ数の47モデルを訓練する。
論文参考訳（メタデータ） (2023-12-31T10:53:58Z)
Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。 DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文参考訳（メタデータ） (2022-10-26T10:09:14Z)
Understanding Scaling Laws for Recommendation Models [1.6283945233720964]
DLRMスタイルレコメンデーションモデル,特にClick-Through Rate(CTR)の実証スケーリング法則について検討する。データ、パラメータ、計算の3つの異なるリソース次元に沿ってスケーリング効率を特徴付ける。パラメータスケーリングは、現在研究中のモデルアーキテクチャにとって絶大であり、より高いパフォーマンスのモデルアーキテクチャが出現するまでは、データスケーリングが先進的な道であることを示す。
論文参考訳（メタデータ） (2022-08-17T19:13:17Z)
Scaling Laws for Neural Machine Translation [21.76567580425173]
モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。また,クロスエントロピー損失と翻訳の質との関係についても検討した。
論文参考訳（メタデータ） (2021-09-16T06:15:20Z)
Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文参考訳（メタデータ） (2021-03-04T19:01:20Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。