論文の概要: Grokking: Generalization Beyond Overfitting on Small Algorithmic
Datasets
- arxiv url: http://arxiv.org/abs/2201.02177v1
- Date: Thu, 6 Jan 2022 18:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 15:14:51.290441
- Title: Grokking: Generalization Beyond Overfitting on Small Algorithmic
Datasets
- Title(参考訳): Grokking: 小さなアルゴリズムデータセットのオーバーフィッティング以上の一般化
- Authors: Alethea Power, Yuri Burda, Harri Edwards, Igor Babuschkin, Vedant
Misra
- Abstract要約: アルゴリズムによって生成された小さなデータセット上でのニューラルネットワークの一般化について検討する。
ニューラルネットワークは、データ内のパターンを"グロキング"するプロセスを通じて学習することを示す。
これらのデータセットは、ディープラーニングの理解の不十分な側面を研究するための、肥大した土台である、と我々は主張する。
- 参考スコア(独自算出の注目度): 4.278591555984394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose to study generalization of neural networks on small
algorithmically generated datasets. In this setting, questions about data
efficiency, memorization, generalization, and speed of learning can be studied
in great detail. In some situations we show that neural networks learn through
a process of "grokking" a pattern in the data, improving generalization
performance from random chance level to perfect generalization, and that this
improvement in generalization can happen well past the point of overfitting. We
also study generalization as a function of dataset size and find that smaller
datasets require increasing amounts of optimization for generalization. We
argue that these datasets provide a fertile ground for studying a poorly
understood aspect of deep learning: generalization of overparametrized neural
networks beyond memorization of the finite training dataset.
- Abstract(参考訳): 本稿では,小さなアルゴリズムで生成されたデータセット上でのニューラルネットワークの一般化について検討する。
この設定では、データ効率、記憶力、一般化、学習速度に関する質問を詳細に研究することができる。
いくつかの状況では、ニューラルネットワークはデータのパターンを"グロキング"するプロセスを通じて学習し、ランダムな確率レベルから完全な一般化までの一般化性能を改善し、この一般化の改善はオーバーフィッティング(overfitting)のポイントをはるかに越えて起こり得ることを示す。
また,データセットサイズの関数としての一般化についても検討し,より小さなデータセットでは一般化に最適化の量を増やす必要があることを発見した。
これらのデータセットは、深層学習の難解な側面を研究するための豊かな基盤を提供していると論じている: 有限訓練データセットの記憶を超えた過パラメータニューラルネットワークの一般化である。
関連論文リスト
- Learning from Limited and Imperfect Data [6.30667368422346]
我々は,現実世界に存在する限られた不完全なデータから学習できるディープニューラルネットワークの実用的なアルゴリズムを開発した。
これらの作品は4つのセグメントに分けられ、それぞれが限られたデータや不完全なデータから学ぶシナリオをカバーしている。
論文 参考訳(メタデータ) (2024-11-11T18:48:31Z) - Generalizability of Memorization Neural Networks [13.144557876007358]
暗記は、ディープラーニングの強い一般化可能性と密接な関係があると広く信じられている。
記憶ネットワークを一般化するためには、ネットワークの幅は少なくともデータの寸法に等しい必要があることを示す。
また、それらに対して一般化可能なデータ分布が存在することも示され、記憶ネットワークはデータ次元において指数的な数のパラメータを持つ必要がある。
論文 参考訳(メタデータ) (2024-11-01T05:18:46Z) - Explaining grokking through circuit efficiency [4.686548060335767]
グルーキングは 完璧な訓練精度のネットワークだが 貧弱な一般化は 完全な一般化へと移行する
我々は,グルーキングに関する4つの新しい予測を立証し,その説明に有利な証拠を提示する。
ネットワークが完全なテスト精度から低いテスト精度に回帰するアングロキング(ungrokking)と、ネットワークが完全なテスト精度よりも部分的な一般化を遅らせるセミグロキング( semi-grokking)という2つの斬新な動作を示す。
論文 参考訳(メタデータ) (2023-09-05T17:00:24Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Exploiting Explainable Metrics for Augmented SGD [43.00691899858408]
最適化下での学習が実際にどのように機能するか、また、特定の戦略が他の方法よりも優れている理由について、未解決の疑問がいくつかある。
ネットワーク層内の冗長な情報を計測する新しい説明可能性指標を提案する。
次に、これらの指標を利用して、各レイヤの学習率を適応的に調整し、一般化性能を向上させることにより、グラディエント・ディフレッシュ(SGD)を増大させる。
論文 参考訳(メタデータ) (2022-03-31T00:16:44Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Feature space approximation for kernel-based supervised learning [2.653409741248232]
目標は、トレーニングデータのサイズを減らし、ストレージ消費と計算の複雑さを減らすことだ。
完全トレーニングデータセットを含むデータ駆動予測の計算と比較して,大幅な改善が示された。
本手法は, 画像認識, システム識別, 海洋時系列解析などの異なる応用領域の分類と回帰問題に適用する。
論文 参考訳(メタデータ) (2020-11-25T11:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。