論文の概要: More Than a Toy: Random Matrix Models Predict How Real-World Neural
Representations Generalize
- arxiv url: http://arxiv.org/abs/2203.06176v1
- Date: Fri, 11 Mar 2022 18:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 12:24:22.549894
- Title: More Than a Toy: Random Matrix Models Predict How Real-World Neural
Representations Generalize
- Title(参考訳): トイ以上のもの:ランダム行列モデルによる実世界のニューラル表現の一般化予測
- Authors: Alexander Wei and Wei Hu and Jacob Steinhardt
- Abstract要約: ほとんどの理論解析は、カーネル回帰においても定性的現象を捉えるには不十分であることがわかった。
古典的GCV推定器は局所確率行列法則が成立するたびに一般化リスクに収束することを示す。
この結果から, ランダム行列理論は, 実際には神経表現の性質を理解する上で重要である可能性が示唆された。
- 参考スコア(独自算出の注目度): 94.70343385404203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Of theories for why large-scale machine learning models generalize despite
being vastly overparameterized, which of their assumptions are needed to
capture the qualitative phenomena of generalization in the real world? On one
hand, we find that most theoretical analyses fall short of capturing these
qualitative phenomena even for kernel regression, when applied to kernels
derived from large-scale neural networks (e.g., ResNet-50) and real data (e.g.,
CIFAR-100). On the other hand, we find that the classical GCV estimator (Craven
and Wahba, 1978) accurately predicts generalization risk even in such
overparameterized settings. To bolster this empirical finding, we prove that
the GCV estimator converges to the generalization risk whenever a local random
matrix law holds. Finally, we apply this random matrix theory lens to explain
why pretrained representations generalize better as well as what factors govern
scaling laws for kernel regression. Our findings suggest that random matrix
theory, rather than just being a toy model, may be central to understanding the
properties of neural representations in practice.
- Abstract(参考訳): 大規模機械学習モデルが非常に過度にパラメータ化されているにもかかわらず、なぜ一般化されるのかの理論について、現実世界の一般化の質的現象を捉えるためには、どのような仮定が必要か?
一方,大規模ニューラルネットワーク(例:resnet-50)と実データ(例:cifar-100)から派生したカーネルに適用した場合,理論解析では,カーネル回帰においてもこれらの定性現象を捕捉できないことが判明した。
一方,古典的GCV推定器 (Craven and Wahba, 1978) は, 過パラメータ設定においても, 正確な一般化リスクを予測する。
この経験的発見を促進するために、GCV推定器が局所確率行列法が成立するたびに一般化リスクに収束することを証明する。
最後に,このランダム行列理論のレンズを用いて,事前学習表現が一般化する理由と,カーネル回帰のスケーリング則を規定する因子を説明する。
本研究は, トイモデルではなく, ランダム行列理論が, 実際には神経表現の性質の理解の中心である可能性が示唆された。
関連論文リスト
- Contraction rates for conjugate gradient and Lanczos approximate posteriors in Gaussian process regression [0.0]
我々は確率的数値の分野から最近提案された近似アルゴリズムのクラスを分析する。
数値解析結果とカーネル行列のスペクトルのアート集中結果の状態を組み合わせ、最小値の収縮率を求める。
論文 参考訳(メタデータ) (2024-06-18T14:50:42Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Generalization in Kernel Regression Under Realistic Assumptions [41.345620270267446]
共通カーネルや任意の正規化、ノイズ、任意の入力次元、サンプル数に対して厳密な境界を提供する。
以上の結果から,高入力次元における過剰適合,固定次元におけるほぼ誘電過剰適合,正規化回帰に対する明示的な収束率が示唆された。
副産物として、カーネルシステムで訓練されたニューラルネットワークの時間依存境界を得る。
論文 参考訳(メタデータ) (2023-12-26T10:55:20Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Out-of-Distribution Generalization in Kernel Regression [21.958028127426196]
トレーニングとテストの分布が異なる場合のカーネル回帰の一般化について検討する。
与えられたカーネルの分布間のミスマッチを定量化する重なり行列を同定する。
本研究では,データ予算に対するトレーニングとテストの配分を最適化する手法を開発し,そのシフトの下で最良のケースと最悪のケースの一般化を求める。
論文 参考訳(メタデータ) (2021-06-04T04:54:25Z) - Benign overfitting in ridge regression [0.0]
過度にパラメータ化されたリッジ回帰に対する漸近的でない一般化境界を提供する。
最小あるいは負の正則化が小さい一般化誤差を得るのに十分であるかどうかを同定する。
論文 参考訳(メタデータ) (2020-09-29T20:00:31Z) - Spectral Bias and Task-Model Alignment Explain Generalization in Kernel
Regression and Infinitely Wide Neural Networks [17.188280334580195]
トレーニングデータセットを越えた一般化は、マシンラーニングの主な目標である。
最近のディープニューラルネットワークの観測は、古典統計学の従来の知恵と矛盾している。
より多くのデータが、カーネルがノイズや表現できないときに一般化を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:53:11Z) - Robust Compressed Sensing using Generative Models [98.64228459705859]
本稿では,Median-of-Means (MOM) にヒントを得たアルゴリズムを提案する。
我々のアルゴリズムは、外れ値が存在する場合でも、重み付きデータの回復を保証する。
論文 参考訳(メタデータ) (2020-06-16T19:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。