論文の概要: An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2212.01365v1
- Date: Fri, 2 Dec 2022 18:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 17:24:47.558338
- Title: An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws
- Title(参考訳): 計算最適化ニューラルスケーリング則の情報理論解析
- Authors: Hong Jun Jeon, Benjamin Van Roy
- Abstract要約: 大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から,チンチラの実証分析で裏付けられる線形関係が示唆された。
- 参考スコア(独自算出の注目度): 16.967568120384957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the compute-optimal trade-off between model and training data set
sizes for large neural networks. Our result suggests a linear relation similar
to that supported by the empirical analysis of Chinchilla. While that work
studies transformer-based large language models trained on the MassiveText
corpus (gopher), as a starting point for development of a mathematical theory,
we focus on a simpler learning model and data generating process, each based on
a neural network with a sigmoidal output unit and single hidden layer of ReLU
activation units. We establish an upper bound on the minimal
information-theoretically achievable expected error as a function of model and
data set sizes. We then derive allocations of computation that minimize this
bound. We present empirical results which suggest that this approximation
correctly identifies an asymptotic linear compute-optimal scaling. This
approximation can also generate new insights. Among other things, it suggests
that, as the input space dimension or latent space complexity grows, as might
be the case for example if a longer history of tokens is taken as input to a
language model, a larger fraction of the compute budget should be allocated to
growing the learning model rather than training data set.
- Abstract(参考訳): 大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から,チンチラの実験的解析が支持する線形関係が示唆された。
その研究は、MassiveTextコーパス(gopher)に基づいてトレーニングされたトランスフォーマーベースの大規模言語モデルの研究であるが、数理理論の発展の出発点として、シグモダル出力ユニットとReLUアクティベーションユニットの単一の隠蔽層を持つニューラルネットワークに基づく、より単純な学習モデルとデータ生成プロセスに焦点を当てる。
モデルとデータセットの大きさの関数として,最小情報理論上達成可能な期待誤差の上限を定式化する。
そして、この境界を最小化する計算の割り当てを導出する。
本稿では,この近似が漸近線形計算-最適スケーリングを正しく同定することを示す実験結果を示す。
この近似は新たな洞察を生み出すこともできる。
特に、入力空間の次元や潜在空間の複雑さが大きくなるにつれて、例えば、トークンの長い履歴を言語モデルへの入力として取り込む場合のように、計算予算の大部分をデータセットのトレーニングではなく、学習モデルの成長に割り当てるべきである。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - The Persian Rug: solving toy models of superposition using large-scale symmetries [0.0]
入力次元が大きければ最小限の非線形スパースデータオートエンコーダによって学習されたアルゴリズムの完全なメカニスティック記述を示す。
我々の研究は、オートエンコーダの構造を理解する技術を導入することによって、ニューラルネットワークの解釈可能性に貢献している。
論文 参考訳(メタデータ) (2024-10-15T22:52:45Z) - Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。
データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文 参考訳(メタデータ) (2024-06-28T02:20:54Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Relative gradient optimization of the Jacobian term in unsupervised deep
learning [9.385902422987677]
データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。
このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。
このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:41:08Z) - The Gaussian equivalence of generative models for learning with shallow
neural networks [30.47878306277163]
本研究では,事前学習した生成モデルから得られたデータに基づいて学習したニューラルネットワークの性能について検討する。
この等価性を裏付ける厳密で解析的で数値的な証拠を3本提供します。
これらの結果は、現実的なデータを持つ機械学習モデルの理論研究への有効な道を開く。
論文 参考訳(メタデータ) (2020-06-25T21:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。