論文の概要: More is Better in Modern Machine Learning: when Infinite
Overparameterization is Optimal and Overfitting is Obligatory
- arxiv url: http://arxiv.org/abs/2311.14646v2
- Date: Mon, 27 Nov 2023 23:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 09:48:05.491400
- Title: More is Better in Modern Machine Learning: when Infinite
Overparameterization is Optimal and Overfitting is Obligatory
- Title(参考訳): 現代の機械学習のさらなる進歩 - 過度パラメータ化が最適でオーバーフィッティングが最適である場合
- Authors: James B. Simon, Dhruva Karkada, Nikhil Ghosh, Mikhail Belkin
- Abstract要約: RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
- 参考スコア(独自算出の注目度): 13.862093876219381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In our era of enormous neural networks, empirical progress has been driven by
the philosophy that more is better. Recent deep learning practice has found
repeatedly that larger model size, more data, and more computation (resulting
in lower training loss) improves performance. In this paper, we give
theoretical backing to these empirical observations by showing that these three
properties hold in random feature (RF) regression, a class of models equivalent
to shallow networks with only the last layer trained.
Concretely, we first show that the test risk of RF regression decreases
monotonically with both the number of features and the number of samples,
provided the ridge penalty is tuned optimally. In particular, this implies that
infinite width RF architectures are preferable to those of any finite width. We
then proceed to demonstrate that, for a large class of tasks characterized by
powerlaw eigenstructure, training to near-zero training loss is obligatory:
near-optimal performance can only be achieved when the training error is much
smaller than the test error. Grounding our theory in real-world data, we find
empirically that standard computer vision tasks with convolutional neural
tangent kernels clearly fall into this class. Taken together, our results tell
a simple, testable story of the benefits of overparameterization, overfitting,
and more data in random feature models.
- Abstract(参考訳): 巨大なニューラルネットワークの時代において、より良いという哲学によって経験的な進歩が導かれてきた。
最近のディープラーニングの実践は、より大きなモデルサイズ、より多くのデータ、より多くの計算(トレーニング損失の低減)がパフォーマンスを改善することを繰り返し発見している。
本稿では,これら3つの性質がランダムな特徴(rf)回帰を持ち,最終層のみを訓練した浅層ネットワークと同等のモデル群であることを示すことにより,これらの経験的観察を理論的に裏付ける。
具体的には,リッジペナルティを最適に調整すれば,rf回帰テストのリスクは特徴数とサンプル数の両方で単調に減少することを示した。
特に、これは無限幅RFアーキテクチャが任意の有限幅のアーキテクチャよりも好ましいことを意味する。
次に, パワーロー固有構造を特徴とする多種多様なタスクに対して, ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられ, ほぼ最適性能は, テストエラーよりもはるかに小さい場合にのみ達成可能であることを示す。
実世界のデータに基づいて、畳み込みニューラルタンジェントカーネルを用いた標準的なコンピュータビジョンタスクは明らかにこのクラスに該当する。
まとめると、我々の結果は、ランダムな特徴モデルにおける過度なパラメータ化、過度な適合、およびより多くのデータの利点について、シンプルで検証可能な物語を語る。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - Benign Overfitting in Two-Layer ReLU Convolutional Neural Networks for
XOR Data [24.86314525762012]
勾配降下法により訓練されたReLU CNNがベイズ最適精度付近で実現できることを示す。
以上の結果から,CNNは高い相関性のある特徴が存在する場合でも,効率よくXOR問題を学習する能力を有することが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T11:31:37Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - The Low-Rank Simplicity Bias in Deep Networks [46.79964271742486]
我々は、ディープネットワークが帰納的にバイアスを受けているという仮説を調査し、拡張する実験的な観察を行い、低い有効ランク埋め込みの解を見つける。
我々の主張は、実践的な学習パラダイム上の有限幅線形および非線形モデルに真であることを示すとともに、自然データ上では、これらがよく一般化される解であることを示す。
論文 参考訳(メタデータ) (2021-03-18T17:58:02Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。