論文の概要: The Quantization Model of Neural Scaling
- arxiv url: http://arxiv.org/abs/2303.13506v3
- Date: Sat, 13 Jan 2024 23:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:08:45.443933
- Title: The Quantization Model of Neural Scaling
- Title(参考訳): ニューラルスケーリングの量子化モデル
- Authors: Eric J. Michaud, Ziming Liu, Uzay Girit, Max Tegmark
- Abstract要約: ニューラルスケーリング法則の量子化モデルを提案し、モデルとデータサイズによる損失の観測されたパワー則の減少と、スケールによる新しい機能の突然の出現について説明する。
使用頻度を減少させるために量子が学習されると、使用中の電力法則が観測された損失のスケーリングを説明する。
- 参考スコア(独自算出の注目度): 19.057931064238584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the Quantization Model of neural scaling laws, explaining both the
observed power law dropoff of loss with model and data size, and also the
sudden emergence of new capabilities with scale. We derive this model from what
we call the Quantization Hypothesis, where network knowledge and skills are
"quantized" into discrete chunks ($\textbf{quanta}$). We show that when quanta
are learned in order of decreasing use frequency, then a power law in use
frequencies explains observed power law scaling of loss. We validate this
prediction on toy datasets, then study how scaling curves decompose for large
language models. Using language model gradients, we automatically decompose
model behavior into a diverse set of skills (quanta). We tentatively find that
the frequency at which these quanta are used in the training distribution
roughly follows a power law corresponding with the empirical scaling exponent
for language models, a prediction of our theory.
- Abstract(参考訳): ニューラルスケーリング法則の量子化モデルを提案し、モデルとデータサイズによる損失の観測されたパワー則と、スケールによる新しい機能の突然の出現について説明する。
このモデルは、ネットワーク知識とスキルを離散的なチャンク(\textbf{quanta}$)に"量子化"する量子化仮説(Quantization hypothesis)と呼ばれています。
使用頻度を減少させるために量子が学習されると、使用頻度における電力法則が観測された損失のスケーリングを説明する。
この予測をおもちゃのデータセット上で検証し,大規模言語モデルにおけるスケーリング曲線の分解について検討する。
言語モデル勾配を用いて、モデルの振る舞いを様々なスキル(量子)に自動的に分解する。
トレーニング分布でこれらの量子が使用される周波数は、言語モデルに対する経験的スケーリング指数に対応する電力法則に従っており、我々の理論の予測である。
関連論文リスト
- Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。
本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。
多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文 参考訳(メタデータ) (2024-11-11T01:05:28Z) - Neural Scaling Laws From Large-N Field Theory: Solvable Model Beyond the Ridgeless Limit [0.0]
我々は、Maloney, Roberts, Sully によって提案されたモデルを解くために、大N場の理論手法を用いる。
モデルとトレーニングデータセットのサイズの対称性を説明するダイアグラムレベルでの双対変換を明らかにする。
論文 参考訳(メタデータ) (2024-05-29T18:00:01Z) - Power Failure Cascade Prediction using Graph Neural Networks [4.667031410586657]
本稿では,初期コンテンジェンシーと電力注入値が与えられたカスケードプロセスの各世代におけるグリッド状態を予測するフローフリーモデルを提案する。
提案モデルにより,計算時間をほぼ2桁に短縮できることを示す。
論文 参考訳(メタデータ) (2024-04-24T18:45:50Z) - QGen: On the Ability to Generalize in Quantization Aware Training [35.0485699853394]
量子化は、モデルの重みとアクティベーションを表すために少ないビットを利用することで、メモリ使用量、計算要求、レイテンシを低下させる。
ニューラルネットワークにおける量子化の理論モデルを開発し、正則化の形式として量子化がどのように機能するかを示す。
論文 参考訳(メタデータ) (2024-04-17T21:52:21Z) - Neural Scaling Laws on Graphs [54.435688297561015]
モデルおよびデータの観点から,グラフ上のニューラルスケーリング法則について検討する。
モデルスケーリングでは,スケール法が崩壊する現象を調査し,オーバーフィッティングを潜在的な理由として同定する。
データスケーリングについては、グラフのサイズが極めて不規則であるため、スケーリング法則においてグラフデータのボリュームを効果的に測定することはできないことを示唆する。
論文 参考訳(メタデータ) (2024-02-03T06:17:21Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - UVeQFed: Universal Vector Quantization for Federated Learning [179.06583469293386]
フェデレートラーニング(FL)は、ユーザがプライベートラベル付きデータを共有することなく、そのような学習モデルをトレーニングする、新たなアプローチである。
FLでは、各ユーザが学習モデルのコピーをローカルにトレーニングする。その後、サーバは個々の更新を収集し、それらをグローバルモデルに集約する。
普遍ベクトル量子化法をFLと組み合わせることで、訓練されたモデルの圧縮が最小歪みのみを誘導する分散トレーニングシステムが得られることを示す。
論文 参考訳(メタデータ) (2020-06-05T07:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。