論文の概要: A Universal Trade-off Between the Model Size, Test Loss, and Training
Loss of Linear Predictors
- arxiv url: http://arxiv.org/abs/2207.11621v1
- Date: Sat, 23 Jul 2022 23:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:43:32.885963
- Title: A Universal Trade-off Between the Model Size, Test Loss, and Training
Loss of Linear Predictors
- Title(参考訳): 線形予測器のモデルサイズ,テスト損失,トレーニング損失の普遍的トレードオフ
- Authors: Nikhil Ghosh, Mikhail Belkin
- Abstract要約: テストデータでうまく機能するモデルは"古典的"で、ノイズレベルに近いトレーニング損失を持つか、"現代"であるかを示す。
また,白色特徴量の制限スペクトル分布がマルテンコパストゥルである場合に,より正確な解析を行う。
- 参考スコア(独自算出の注目度): 19.66604745431462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we establish an algorithm and distribution independent
non-asymptotic trade-off between the model size, excess test loss, and training
loss of linear predictors. Specifically, we show that models that perform well
on the test data (have low excess loss) are either "classical" -- have training
loss close to the noise level, or are "modern" -- have a much larger number of
parameters compared to the minimum needed to fit the training data exactly.
We also provide a more precise asymptotic analysis when the limiting spectral
distribution of the whitened features is Marchenko-Pastur. Remarkably, while
the Marchenko-Pastur analysis is far more precise near the interpolation peak,
where the number of parameters is just enough to fit the training data, in
settings of most practical interest it differs from the distribution
independent bound by only a modest multiplicative constant.
- Abstract(参考訳): 本研究では,モデルサイズ,過剰なテスト損失,線形予測器のトレーニング損失との非漸近的トレードオフをアルゴリズムと分布で定義する。
具体的には、テストデータ(過剰損失の少ない)でうまく機能するモデルは、"古典的" -- ノイズレベルに近いトレーニング損失を持つか、"近代的" -- が、トレーニングデータに正確に適合するために必要な最小限のパラメータよりもはるかに多くのパラメータを持つことを示す。
また,白色特徴の限界スペクトル分布がマルケンコ・パストゥルである場合には,より正確な漸近解析を行う。
驚くべきことに、マルケンコ・パストゥル解析は補間ピーク付近でより正確であるが、パラメータの数はトレーニングデータに適合するには十分である。
関連論文リスト
- Sharp analysis of out-of-distribution error for "importance-weighted" estimators in the overparameterized regime [5.653716495767272]
我々は「重要重み」を組み込んだコスト感受性補間解の分布内および分布外テスト誤差を解析する。
我々の分析は上界と下界を一致させて鋭く、データ次元に関する仮定を著しく弱めている。
誤差の特徴は重みの選択にも当てはまり、最悪の場合のロバスト性から分布シフト、平均精度の間には新たなトレードオフが浮かび上がっています。
論文 参考訳(メタデータ) (2024-05-10T15:43:17Z) - Online Tensor Inference [0.0]
従来のオフライン学習は、各計算繰り返しにおける全てのデータの保存と利用を伴い、高次元テンソルデータには実用的ではない。
既存の低ランクテンソル法は、オンラインの方法での統計的推論能力に欠ける。
本手法では,広範囲なメモリ要求を伴わずに効率的なリアルタイムデータ処理を実現するため,グラディエント・Descent (SGD) を用いる。
論文 参考訳(メタデータ) (2023-12-28T16:37:48Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z) - The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。
これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文 参考訳(メタデータ) (2017-10-27T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。