論文の概要: Broken Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2210.14891v9
- Date: Fri, 24 Mar 2023 17:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 18:21:35.581361
- Title: Broken Neural Scaling Laws
- Title(参考訳): 破壊的ニューラルスケーリング法則
- Authors: Ethan Caballero, Kshitij Gupta, Irina Rish, David Krueger
- Abstract要約: ブロークニューラルスケーリング法(BNSL)は、ディープニューラルネットワークのスケーリング挙動を正確にモデル化し、外挿する。
このセットには、大規模ビジョン、言語、オーディオ、ビデオ、拡散、生成モデリング、マルチモーダル学習、コントラスト学習、AIアライメント、ロボット工学、アウト・オブ・ディストリビューション(OOD)一般化が含まれる。
- 参考スコア(独自算出の注目度): 9.020652910657931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a smoothly broken power law functional form (referred to by us as
a Broken Neural Scaling Law (BNSL)) that accurately models and extrapolates the
scaling behaviors of deep neural networks (i.e. how the evaluation metric of
interest varies as the amount of compute used for training, number of model
parameters, training dataset size, model input size, number of training steps,
or upstream performance varies) for various architectures and for each of
various tasks within a large and diverse set of upstream and downstream tasks,
in zero-shot, prompted, and fine-tuned settings. This set includes large-scale
vision, language, audio, video, diffusion, generative modeling, multimodal
learning, contrastive learning, AI alignment, robotics, out-of-distribution
(OOD) generalization, continual learning, transfer learning, uncertainty
estimation / calibration, out-of-distribution detection, adversarial
robustness, distillation, sparsity, retrieval, quantization, pruning,
molecules, computer programming/coding, math word problems, arithmetic,
unsupervised/self-supervised learning, and reinforcement learning (single agent
and multi-agent). When compared to other functional forms for neural scaling
behavior, this functional form yields extrapolations of scaling behavior that
are considerably more accurate on this set. Moreover, this functional form
accurately models and extrapolates scaling behavior that other functional forms
are incapable of expressing such as the non-monotonic transitions present in
the scaling behavior of phenomena such as double descent and the delayed, sharp
inflection points (often called "emergent phase transitions") present in the
scaling behavior of tasks such as arithmetic. Lastly, we use this functional
form to glean insights about the limit of the predictability of scaling
behavior. Code is available at
https://github.com/ethancaballero/broken_neural_scaling_laws
- Abstract(参考訳): We present a smoothly broken power law functional form (referred to by us as a Broken Neural Scaling Law (BNSL)) that accurately models and extrapolates the scaling behaviors of deep neural networks (i.e. how the evaluation metric of interest varies as the amount of compute used for training, number of model parameters, training dataset size, model input size, number of training steps, or upstream performance varies) for various architectures and for each of various tasks within a large and diverse set of upstream and downstream tasks, in zero-shot, prompted, and fine-tuned settings.
This set includes large-scale vision, language, audio, video, diffusion, generative modeling, multimodal learning, contrastive learning, AI alignment, robotics, out-of-distribution (OOD) generalization, continual learning, transfer learning, uncertainty estimation / calibration, out-of-distribution detection, adversarial robustness, distillation, sparsity, retrieval, quantization, pruning, molecules, computer programming/coding, math word problems, arithmetic, unsupervised/self-supervised learning, and reinforcement learning (single agent and multi-agent).
神経スケーリング行動の他の機能形式と比較すると、この関数形式は、この集合においてかなり正確なスケーリング行動の外挿をもたらす。
さらに、この関数形式は、二重降下のような現象のスケーリング挙動に存在する非単調遷移や、算術のようなタスクのスケーリング挙動に存在する遅延した鋭いインフレクション点(しばしば「創発的な位相遷移」と呼ばれる)など、他の関数形式が表現できないスケーリング挙動を正確にモデル化し、外挿する。
最後に、この関数形式を使用して、スケーリング動作の予測可能性の限界に関する洞察を得ます。
コードはhttps://github.com/ethancaballero/broken_neural_scaling_lawsで入手できる。
関連論文リスト
- A Dynamical Model of Neural Scaling Laws [86.9540615081759]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Spiking mode-based neural networks [3.0349733976070024]
スパイクニューラルネットワークは、脳のようなニューロモルフィック計算において重要な役割を果たす。
大規模なスパイクニューラルネットワークのトレーニングの欠点のひとつは、すべての重みを更新するコストがかかることだ。
論文 参考訳(メタデータ) (2023-10-23T06:54:17Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Consensus Function from an $L_p^q-$norm Regularization Term for its Use
as Adaptive Activation Functions in Neural Networks [0.0]
本稿では,学習過程においてその形状に適応する暗黙的,パラメトリックな非線形活性化関数の定義と利用を提案する。
この事実は、ネットワーク内で最適化するパラメータの空間を増大させるが、柔軟性を高め、ニューラルネットワークの概念を一般化する。
予備的な結果は、この種の適応的アクティベーション関数によるニューラルネットワークの使用は、回帰や分類の例における誤差を減少させることを示している。
論文 参考訳(メタデータ) (2022-06-30T04:48:14Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - Improving Deep Learning Interpretability by Saliency Guided Training [36.782919916001624]
精度法はモデル予測において重要な入力特徴を強調するために広く用いられている。
既存の方法の多くは、修正された勾配関数のバックプロパゲーションを使用して、サリエンシマップを生成する。
本稿では,予測に使用する雑音勾配を低減するために,ニューラルネットワークに対するサリエンシ指導訓練手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:05:23Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。