論文の概要: The Quantization Model of Neural Scaling
- arxiv url: http://arxiv.org/abs/2303.13506v1
- Date: Thu, 23 Mar 2023 17:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 12:55:34.954023
- Title: The Quantization Model of Neural Scaling
- Title(参考訳): ニューラルスケーリングの量子化モデル
- Authors: Eric J. Michaud, Ziming Liu, Uzay Girit, Max Tegmark
- Abstract要約: 使用頻度を減少させるために量子が学習されると、使用中の電力法則が観測された損失のスケーリングを説明する。
言語モデルの内部構造を用いて、自然文の予測における対応するサブプロブレムの分布が、我々の理論から予測されるニューラルスケーリング指数から予測されるパワー法と互換性があることを仮証する。
- 参考スコア(独自算出の注目度): 4.5839319171316975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the $\textit{Quantization Model}$ of neural scaling laws,
explaining both the observed power law dropoff of loss with model and data
size, and also the sudden emergence of new capabilities with scale. We derive
this model from what we call the $\textit{Quantization Hypothesis}$, where
learned network capabilities are quantized into discrete chunks
($\textit{quanta}$). We show that when quanta are learned in order of
decreasing use frequency, then a power law in use frequencies explains observed
power law scaling of loss. We validate this prediction on toy datasets, then
study how scaling curves decompose for large language models. Using language
model internals, we auto-discover diverse model capabilities (quanta) and find
tentative evidence that the distribution over corresponding subproblems in the
prediction of natural text is compatible with the power law predicted from the
neural scaling exponent as predicted from our theory.
- Abstract(参考訳): ニューラルスケーリング法則の$\textit{Quantization Model}$を提案し、モデルとデータサイズによる損失の観測されたパワー則と、スケールによる新しい機能の突然の出現について説明する。
我々はこのモデルを $\textit{Quantization hypothesis}$ と呼び、学習されたネットワーク能力は離散的なチャンク(\textit{quanta}$)に量子化されます。
使用頻度を減少させるために量子が学習されると、使用頻度における電力法則が観測された損失のスケーリングを説明する。
この予測をおもちゃのデータセット上で検証し,大規模言語モデルにおけるスケーリング曲線の分解について検討する。
言語モデル内部を用いて多種多様なモデル機能(量子)を自動発見し、自然文の予測における対応するサブプロブレムの分布が、我々の理論から予測されるニューラルスケーリング指数から予測されるパワー法と互換性があることを仮証する。
関連論文リスト
- Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。
本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。
多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文 参考訳(メタデータ) (2024-11-11T01:05:28Z) - Neural Scaling Laws From Large-N Field Theory: Solvable Model Beyond the Ridgeless Limit [0.0]
我々は、Maloney, Roberts, Sully によって提案されたモデルを解くために、大N場の理論手法を用いる。
モデルとトレーニングデータセットのサイズの対称性を説明するダイアグラムレベルでの双対変換を明らかにする。
論文 参考訳(メタデータ) (2024-05-29T18:00:01Z) - Power Failure Cascade Prediction using Graph Neural Networks [4.667031410586657]
本稿では,初期コンテンジェンシーと電力注入値が与えられたカスケードプロセスの各世代におけるグリッド状態を予測するフローフリーモデルを提案する。
提案モデルにより,計算時間をほぼ2桁に短縮できることを示す。
論文 参考訳(メタデータ) (2024-04-24T18:45:50Z) - QGen: On the Ability to Generalize in Quantization Aware Training [35.0485699853394]
量子化は、モデルの重みとアクティベーションを表すために少ないビットを利用することで、メモリ使用量、計算要求、レイテンシを低下させる。
ニューラルネットワークにおける量子化の理論モデルを開発し、正則化の形式として量子化がどのように機能するかを示す。
論文 参考訳(メタデータ) (2024-04-17T21:52:21Z) - Neural Scaling Laws on Graphs [54.435688297561015]
モデルおよびデータの観点から,グラフ上のニューラルスケーリング法則について検討する。
モデルスケーリングでは,スケール法が崩壊する現象を調査し,オーバーフィッティングを潜在的な理由として同定する。
データスケーリングについては、グラフのサイズが極めて不規則であるため、スケーリング法則においてグラフデータのボリュームを効果的に測定することはできないことを示唆する。
論文 参考訳(メタデータ) (2024-02-03T06:17:21Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - UVeQFed: Universal Vector Quantization for Federated Learning [179.06583469293386]
フェデレートラーニング(FL)は、ユーザがプライベートラベル付きデータを共有することなく、そのような学習モデルをトレーニングする、新たなアプローチである。
FLでは、各ユーザが学習モデルのコピーをローカルにトレーニングする。その後、サーバは個々の更新を収集し、それらをグローバルモデルに集約する。
普遍ベクトル量子化法をFLと組み合わせることで、訓練されたモデルの圧縮が最小歪みのみを誘導する分散トレーニングシステムが得られることを示す。
論文 参考訳(メタデータ) (2020-06-05T07:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。