論文の概要: Scaling Laws for Autoregressive Generative Modeling
- arxiv url: http://arxiv.org/abs/2010.14701v2
- Date: Fri, 6 Nov 2020 04:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 04:27:15.135332
- Title: Scaling Laws for Autoregressive Generative Modeling
- Title(参考訳): 自己回帰生成モデリングのためのスケーリング法則
- Authors: Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse,
Jacob Jackson, Heewoo Jun, Tom B. Brown, Prafulla Dhariwal, Scott Gray, Chris
Hallacy, Benjamin Mann, Alec Radford, Aditya Ramesh, Nick Ryder, Daniel M.
Ziegler, John Schulman, Dario Amodei, Sam McCandlish
- Abstract要約: 生成画像モデリング,ビデオモデリング,マルチモーダル画像$leftarrow$textモデル,数学的問題解決の4つの領域におけるクロスエントロピー損失に対する経験的スケーリング法則を同定する。
いずれの場合も、モデルのサイズや計算予算が増加するにつれて、自動回帰変換器はパフォーマンスを円滑に改善する。
- 参考スコア(独自算出の注目度): 30.051804305320424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify empirical scaling laws for the cross-entropy loss in four
domains: generative image modeling, video modeling, multimodal
image$\leftrightarrow$text models, and mathematical problem solving. In all
cases autoregressive Transformers smoothly improve in performance as model size
and compute budgets increase, following a power-law plus constant scaling law.
The optimal model size also depends on the compute budget through a power-law,
with exponents that are nearly universal across all data domains.
The cross-entropy loss has an information theoretic interpretation as
$S($True$) + D_{\mathrm{KL}}($True$||$Model$)$, and the empirical scaling laws
suggest a prediction for both the true data distribution's entropy and the KL
divergence between the true and model distributions. With this interpretation,
billion-parameter Transformers are nearly perfect models of the YFCC100M image
distribution downsampled to an $8\times 8$ resolution, and we can forecast the
model size needed to achieve any given reducible loss (ie $D_{\mathrm{KL}}$) in
nats/image for other resolutions.
We find a number of additional scaling laws in specific domains: (a) we
identify a scaling relation for the mutual information between captions and
images in multimodal models, and show how to answer the question "Is a picture
worth a thousand words?"; (b) in the case of mathematical problem solving, we
identify scaling laws for model performance when extrapolating beyond the
training distribution; (c) we finetune generative image models for ImageNet
classification and find smooth scaling of the classification loss and error
rate, even as the generative loss levels off. Taken together, these results
strengthen the case that scaling laws have important implications for neural
network performance, including on downstream tasks.
- Abstract(参考訳): 生成画像モデリング,ビデオモデリング,マルチモーダル画像$\leftrightarrow$textモデル,数学的問題解決の4つの領域におけるクロスエントロピー損失に対する経験的スケーリング法則を同定する。
いずれの場合も、モデルのサイズと計算予算がパワーロープラス一定のスケーリング則に従って増加すると、オートレグレッシブトランスフォーマーはパフォーマンスをスムーズに改善する。
最適なモデルサイズは、すべてのデータドメインでほぼ普遍的な指数を持つパワーローによる計算予算にも依存する。
クロスエントロピー損失は、情報理論的な解釈として$s($true$) + d_{\mathrm{kl}}($true$||$model$)$であり、経験的スケーリング則は真のデータ分布のエントロピーと真の分布とモデル分布の間のklの分岐の両方の予測を示唆する。
この解釈により、数十億パラメータ変換器は、YFCC100Mイメージの分布を8倍の8倍の解像度にダウンサンプルしたほぼ完璧なモデルであり、他の解像度のために、任意の再現可能な損失(D_{\mathrm{KL}}$)を達成するために必要なモデルサイズを予測できる。
特定のドメインでさらに多くのスケーリング法則が見つかる。
(a)マルチモーダルモデルにおけるキャプションと画像の相互情報に対するスケーリング関係を特定し,「絵は千語の価値あるか?」という問いにどう答えるかを示す。
b) 数学的問題解決の場合には,トレーニング分布を超えて外挿する場合に,モデル性能のスケーリング法則を特定する。
c)imagenet分類のための生成画像モデルを微調整し,生成損失レベルがオフであっても,分類損失とエラー率の円滑なスケーリングを見出す。
まとめると、これらの結果は、スケール法則がダウンストリームタスクを含むニューラルネットワークのパフォーマンスに重要な影響を及ぼすというケースを強化する。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - On the Scalability of Diffusion-based Text-to-Image Generation [97.64837704129005]
拡散に基づくテキスト・ツー・イメージ(T2I)モデルのスケーリング特性について検討する。
モデルスケーリングでは、既存のUNet設計の性能を区別して、クロスアテンションの位置と量を求める。
データスケーリングの面では、単にデータセットのサイズではなく、トレーニングセットの品質と多様性が重要です。
論文 参考訳(メタデータ) (2024-04-03T17:34:28Z) - Neural Scaling Laws on Graphs [54.435688297561015]
モデルおよびデータの観点から,グラフ上のニューラルスケーリング法則について検討する。
モデルスケーリングでは,スケール法が崩壊する現象を調査し,オーバーフィッティングを潜在的な理由として同定する。
データスケーリングについては、グラフのサイズが極めて不規則であるため、スケーリング法則においてグラフデータのボリュームを効果的に測定することはできないことを示唆する。
論文 参考訳(メタデータ) (2024-02-03T06:17:21Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z) - Explaining Neural Scaling Laws [17.115592382420626]
訓練されたディープニューラルネットワークの人口減少は、しばしば正確なパワー-ロースケーリング関係に従う。
本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と分解能制限のスケーリング挙動を同定する。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z) - A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文 参考訳(メタデータ) (2020-04-22T19:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。