Fugu-MT 論文翻訳(概要): Scaling Laws for Neural Language Models

論文の概要: Scaling Laws for Neural Language Models

arxiv url: http://arxiv.org/abs/2001.08361v1
Date: Thu, 23 Jan 2020 03:59:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-07 10:10:52.377958
Title: Scaling Laws for Neural Language Models
Title（参考訳）: ニューラルネットワークモデルのスケーリング法則
Authors: Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei
Abstract要約: クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
参考スコア（独自算出の注目度）: 14.472857826717613
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Other architectural details such as network width or depth have minimal effects within a wide range. Simple equations govern the dependence of overfitting on model/dataset size and the dependence of training speed on model size. These relationships allow us to determine the optimal allocation of a fixed compute budget. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.
Abstract（参考訳）: クロスエントロピー損失に対する言語モデル性能に関する経験的スケーリング法則について検討する。損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワールールとしてスケールし、いくつかの傾向は7桁を超える。ネットワーク幅や深さといった他のアーキテクチャの詳細は、幅広い範囲で最小限の効果を持つ。単純な方程式はモデル/データセットサイズへのオーバーフィッティングの依存とモデルサイズへのトレーニング速度の依存を支配している。これらの関係により、固定計算予算の最適割り当てを決定することができる。より大規模なモデルはよりサンプリング効率が良く、最適に計算効率のトレーニングでは、比較的控えめな量のデータで非常に大きなモデルを訓練し、収束前に著しく停止する。

関連論文リスト

Complexity Scaling Laws for Neural Models using Combinatorial Optimization [3.4585775092874163]
問題複雑性に基づくスケーリング法則を策定する。我々は、解空間サイズと表現空間サイズという2つの基本的な複雑さの尺度を解析する。最適化はスムーズなコストトレンドを促進し,解釈可能な損失がなくても有意義なスケーリング法則を得ることができることを示す。
論文参考訳（メタデータ） (2025-06-15T18:20:35Z)
Small-to-Large Generalization: Data Influences Models Consistently Across Scale [76.87199303408161]
小規模および大規模言語モデル予測(一般的には)は、トレーニングデータの選択に非常に相関している。また、データ属性とデータセット選択という2つの下流プロキシモデルアプリケーションにおいて、プロキシスケールが有効性にどのように影響するかを特徴付ける。
論文参考訳（メタデータ） (2025-05-22T05:50:19Z)
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。 DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文参考訳（メタデータ） (2025-03-12T20:04:38Z)
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions [65.89403417819764]
設計選択が言語モデル能力に与える影響を定量化する。モデルサイズとトレーニングトークンの数以外の機能を組み込むことで、下流のパフォーマンスを予測する能力が3～28%向上する。
論文参考訳（メタデータ） (2025-03-05T19:46:04Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Unified Neural Network Scaling Laws and Scale-time Equivalence [10.918504301310753]
本稿では、モデルサイズ、トレーニング時間、データボリュームの3つの要因がどのように相互作用し、ディープニューラルネットワークの性能を決定するかという、新しい理論的特徴を示す。まず、ニューラルネットワークのサイズを拡大し、トレーニング時間を比例的に増加させることで、理論的かつ経験的な等価性を確立する。次に、スケール時間同値と二重降下の線形モデル解析を組み合わせ、統一された理論的スケーリング法則を得る。
論文参考訳（メタデータ） (2024-09-09T16:45:26Z)
More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。 a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文参考訳（メタデータ） (2024-04-30T12:05:48Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文参考訳（メタデータ） (2022-10-30T15:13:18Z)
Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文参考訳（メタデータ） (2021-06-11T18:59:24Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。