論文の概要: Beyond neural scaling laws: beating power law scaling via data pruning
- arxiv url: http://arxiv.org/abs/2206.14486v6
- Date: Fri, 21 Apr 2023 20:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 00:17:00.769425
- Title: Beyond neural scaling laws: beating power law scaling via data pruning
- Title(参考訳): ニューラルスケーリングの法則を超えた:データプルーニングによるパワーローのスケーリング
- Authors: Ben Sorscher, Robert Geirhos, Shashank Shekhar, Surya Ganguli, Ari S.
Morcos
- Abstract要約: 理論的には、電力法のスケーリングを超越して、指数的なスケーリングまで削減できる可能性も示しています。
よりシンプルで安価でスケーラブルな自己教師付きプルーニングメトリクスを開発し、最高の教師付き指標に匹敵するパフォーマンスを示す。
全体として、我々の研究は、優れたデータ処理メトリクスの発見が、ニューラルネットワークのスケーリング法則を大幅に改善する上で、実行可能な道筋となることを示唆している。
- 参考スコア(独自算出の注目度): 37.804100045519846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Widely observed neural scaling laws, in which error falls off as a power of
the training set size, model size, or both, have driven substantial performance
improvements in deep learning. However, these improvements through scaling
alone require considerable costs in compute and energy. Here we focus on the
scaling of error with dataset size and show how in theory we can break beyond
power law scaling and potentially even reduce it to exponential scaling instead
if we have access to a high-quality data pruning metric that ranks the order in
which training examples should be discarded to achieve any pruned dataset size.
We then test this improved scaling prediction with pruned dataset size
empirically, and indeed observe better than power law scaling in practice on
ResNets trained on CIFAR-10, SVHN, and ImageNet. Next, given the importance of
finding high-quality pruning metrics, we perform the first large-scale
benchmarking study of ten different data pruning metrics on ImageNet. We find
most existing high performing metrics scale poorly to ImageNet, while the best
are computationally intensive and require labels for every image. We therefore
developed a new simple, cheap and scalable self-supervised pruning metric that
demonstrates comparable performance to the best supervised metrics. Overall,
our work suggests that the discovery of good data-pruning metrics may provide a
viable path forward to substantially improved neural scaling laws, thereby
reducing the resource costs of modern deep learning.
- Abstract(参考訳): 広範囲に観察されたニューラルネットワークのスケーリング法則では、トレーニングセットのサイズやモデルサイズ、あるいはその両方がエラーを発生させるため、ディープラーニングのパフォーマンスが大幅に向上している。
しかし、スケーリングによるこれらの改善は計算とエネルギーにかなりのコストを必要とする。
ここでは、データセットサイズによるエラーのスケーリングに注目し、理論上、任意のデータセットサイズを達成するためにトレーニング例を捨てるべき順序をランク付けする高品質なデータプルーニングメトリックにアクセスできれば、パワーロースケーリングを超越して、指数スケーリングにまで削減できる可能性も示します。
そして、この改良されたスケーリング予測をprunedデータセットサイズで実証的にテストし、cifar-10、svhn、imagenetでトレーニングされたresnet上で、実際にパワーロースケーリングよりもよく観察します。
次に、高品質なpruningメトリックを見つけることの重要性を踏まえて、imagenet上で10の異なるデータpruningメトリックに関する最初の大規模ベンチマーク調査を行う。
既存のハイパフォーマンスなメトリクスのほとんどはImageNetに匹敵するものですが、ベストは計算集約的で、すべてのイメージにラベルが必要です。
そこで我々は,優れた教師付きメトリクスに匹敵するパフォーマンスを示す,シンプルで安価でスケーラブルな自己教師付きプルーニングメトリックを開発した。
全体として、我々の研究は、優れたデータ処理メトリクスの発見が、ニューラルネットワークのスケーリング法則を大幅に改善し、現代のディープラーニングのリソースコストを削減するための、実行可能な道筋を提供する可能性を示唆している。
関連論文リスト
- Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。
データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文 参考訳(メタデータ) (2024-06-28T02:20:54Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Reproducible scaling laws for contrastive language-image learning [42.354402731615444]
コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を,パブリックLAIONデータセットとオープンソースOpenCLIPリポジトリを用いて検討する。
私たちの大規模な実験には、最大20億のイメージテキストペアでトレーニングされたモデルと、複数の下流タスクに対する電力法スケーリングの特定が含まれています。
OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法則において重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-12-14T10:24:50Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws for a Multi-Agent Reinforcement Learning Model [0.0]
グラウンストーン強化学習アルゴリズムAlphaZeroの性能スケーリングについて検討した。
我々は、利用可能な計算でボトルネックにならない場合、ニューラルネットワークパラメータカウントのパワー則としてプレイヤーの強度がスケールすることを発見した。
最適なニューラルネットワークサイズが予想されるスケーリングが、両方のゲームのデータに適合していることが分かりました。
論文 参考訳(メタデータ) (2022-09-29T19:08:51Z) - Revisiting Neural Scaling Laws in Language and Vision [43.57394336742374]
我々は、最適なパラメータを報告するのではなく、外挿損失に基づくより厳密な方法論を論じる。
本稿では,学習曲線から法則パラメータのスケーリングを確実に推定する手法を提案する。
複数のドメインにまたがる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。
論文 参考訳(メタデータ) (2022-09-13T09:41:51Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。