論文の概要: Unified Neural Network Scaling Laws and Scale-time Equivalence
- arxiv url: http://arxiv.org/abs/2409.05782v1
- Date: Mon, 9 Sep 2024 16:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:56:09.381288
- Title: Unified Neural Network Scaling Laws and Scale-time Equivalence
- Title(参考訳): 統一ニューラルネットワークスケーリング法則とスケールタイム等価性
- Authors: Akhilan Boopathy, Ila Fiete,
- Abstract要約: 本稿では、モデルサイズ、トレーニング時間、データボリュームの3つの要因がどのように相互作用し、ディープニューラルネットワークの性能を決定するかという、新しい理論的特徴を示す。
まず、ニューラルネットワークのサイズを拡大し、トレーニング時間を比例的に増加させることで、理論的かつ経験的な等価性を確立する。
次に、スケール時間同値と二重降下の線形モデル解析を組み合わせ、統一された理論的スケーリング法則を得る。
- 参考スコア(独自算出の注目度): 10.918504301310753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As neural networks continue to grow in size but datasets might not, it is vital to understand how much performance improvement can be expected: is it more important to scale network size or data volume? Thus, neural network scaling laws, which characterize how test error varies with network size and data volume, have become increasingly important. However, existing scaling laws are often applicable only in limited regimes and often do not incorporate or predict well-known phenomena such as double descent. Here, we present a novel theoretical characterization of how three factors -- model size, training time, and data volume -- interact to determine the performance of deep neural networks. We first establish a theoretical and empirical equivalence between scaling the size of a neural network and increasing its training time proportionally. Scale-time equivalence challenges the current practice, wherein large models are trained for small durations, and suggests that smaller models trained over extended periods could match their efficacy. It also leads to a novel method for predicting the performance of large-scale networks from small-scale networks trained for extended epochs, and vice versa. We next combine scale-time equivalence with a linear model analysis of double descent to obtain a unified theoretical scaling law, which we confirm with experiments across vision benchmarks and network architectures. These laws explain several previously unexplained phenomena: reduced data requirements for generalization in larger models, heightened sensitivity to label noise in overparameterized models, and instances where increasing model scale does not necessarily enhance performance. Our findings hold significant implications for the practical deployment of neural networks, offering a more accessible and efficient path to training and fine-tuning large models.
- Abstract(参考訳): ニューラルネットワークのサイズが拡大するがデータセットがそうでないため、どの程度のパフォーマンス向上が期待できるのかを理解することが不可欠である。
このように、テストエラーがネットワークサイズやデータボリュームによってどのように変化するかを特徴付けるニューラルネットワークスケーリング法則が、ますます重要になっている。
しかし、既存のスケーリング法則は限られた制度でのみ適用され、二重降下のようなよく知られた現象を取り入れたり予測したりしないことが多い。
ここでは、モデルのサイズ、トレーニング時間、データボリュームの3つの要素がどのように相互作用し、ディープニューラルネットワークの性能を決定するかという、新しい理論的特徴を示す。
まず、ニューラルネットワークのサイズを拡大し、トレーニング時間を比例的に増加させることで、理論的かつ経験的な等価性を確立する。
スケールタイムの等価性は、大規模なモデルが小規模な期間でトレーニングされる現在のプラクティスに挑戦し、より小さなモデルが長期にわたってトレーニングされた場合の有効性に合致する可能性があることを示唆している。
また、拡張エポックのために訓練された小規模ネットワークから大規模ネットワークの性能を予測する新たな手法も提案されている。
次に、スケールタイム同値と二重降下の線形モデル解析を組み合わせ、統一された理論的スケーリング法則を得る。
これらの法則は、より大規模なモデルにおける一般化のためのデータ要求の削減、過パラメータ化モデルにおけるラベルノイズに対する感度の向上、モデルスケールの増加が必ずしも性能を向上しないインスタンスなど、これまで説明されていなかったいくつかの現象を説明する。
私たちの発見は、ニューラルネットワークの実践的な展開に重要な意味を持ち、トレーニングや微調整の大規模なモデルへの、よりアクセスしやすく効率的なパスを提供しています。
関連論文リスト
- Unlocking the Theory Behind Scaling 1-Bit Neural Networks [7.578147116161996]
1ビットのLarge Language Models (LLM)が登場し、従来のLLMに匹敵する効率とパフォーマンスの素晴らしい組み合わせを示している。
1ビットニューラルネットワークのスケーリング法則を厳格に確立した最初の理論的結果を示す。
この結果から,Int1が今後,ニューラルネットワークの精度の基準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-03T19:18:57Z) - Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。
以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。
大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文 参考訳(メタデータ) (2024-10-07T08:54:23Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws for the Few-Shot Adaptation of Pre-trained Image
Classifiers [11.408339220607251]
ニューラルネットワークのスケーリング法則の実証科学は、機械学習の未来にとって重要な領域として急速に成長している。
我々の主な目的は、事前学習データの量が標準画像分類器の少数ショット一般化性能にどのように影響するかを検討することである。
論文 参考訳(メタデータ) (2021-10-13T19:07:01Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。