論文の概要: Dimension Independent Generalization Error by Stochastic Gradient
Descent
- arxiv url: http://arxiv.org/abs/2003.11196v2
- Date: Mon, 4 Jan 2021 06:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 03:05:57.878498
- Title: Dimension Independent Generalization Error by Stochastic Gradient
Descent
- Title(参考訳): 確率勾配降下による次元独立一般化誤差
- Authors: Xi Chen and Qiang Liu and Xin T. Tong
- Abstract要約: 本稿では, 局所凸損失関数に対する降下(SGD)解の一般化誤差に関する理論を提案する。
一般化誤差は$p$次元に依存したり、低効用$p$対数因子に依存しないことを示す。
- 参考スコア(独自算出の注目度): 12.474236773219067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One classical canon of statistics is that large models are prone to
overfitting, and model selection procedures are necessary for high dimensional
data. However, many overparameterized models, such as neural networks, perform
very well in practice, although they are often trained with simple online
methods and regularization. The empirical success of overparameterized models,
which is often known as benign overfitting, motivates us to have a new look at
the statistical generalization theory for online optimization. In particular,
we present a general theory on the generalization error of stochastic gradient
descent (SGD) solutions for both convex and locally convex loss functions. We
further discuss data and model conditions that lead to a ``low effective
dimension". Under these conditions, we show that the generalization error
either does not depend on the ambient dimension $p$ or depends on $p$ via a
poly-logarithmic factor. We also demonstrate that in several widely used
statistical models, the ``low effective dimension'' arises naturally in
overparameterized settings. The studied statistical applications include both
convex models such as linear regression and logistic regression and non-convex
models such as $M$-estimator and two-layer neural networks.
- Abstract(参考訳): 統計学の古典的なカノンの一つは、大きなモデルは過剰適合しがちであり、高次元データにはモデル選択手順が必要であるということである。
しかし、ニューラルネットワークのような超パラメータモデルの多くは、単純なオンライン手法や正規化で訓練されることが多いが、実際に非常によく機能する。
過パラメータ化モデルの実証的な成功は、しばしば良性過剰適合として知られているが、オンライン最適化のための統計一般化理論を新たに検討する動機となっている。
特に、凸関数と局所凸損失関数の両方に対する確率勾配降下(SGD)解の一般化誤差に関する一般的な理論を示す。
我々はさらに ``low effective dimension' につながるデータとモデル条件についても論じる。
これらの条件下では、一般化誤差は周囲次元$p$に依存しないか、あるいは多対数因子を介して$p$に依存していることを示す。
また,いくつかの統計モデルにおいて,'low effective dimension'' が過剰パラメータ設定で自然に現れることを実証した。
研究された統計応用には、線形回帰やロジスティック回帰のような凸モデルと、$M$-estimatorや2層ニューラルネットワークのような非凸モデルの両方が含まれる。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Analysis of Interpolating Regression Models and the Double Descent
Phenomenon [3.883460584034765]
ノイズの多いトレーニングデータを補間するモデルは、一般化に乏しいと一般的に推測されている。
得られた最良のモデルは過度にパラメータ化され、テストエラーはモデル順序が増加するにつれて二重降下挙動を示す。
回帰行列の最小特異値の振舞いに基づいて、テスト誤差のピーク位置と二重降下形状をモデル順序の関数として説明する。
論文 参考訳(メタデータ) (2023-04-17T09:44:33Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - RMFGP: Rotated Multi-fidelity Gaussian process with Dimension Reduction
for High-dimensional Uncertainty Quantification [12.826754199680474]
マルチフィデリティモデリングは、少量の正確なデータしか入手できない場合でも、正確な推測を可能にする。
高忠実度モデルと1つ以上の低忠実度モデルを組み合わせることで、多忠実度法は興味のある量の正確な予測を行うことができる。
本稿では,回転多要素ガウス過程の回帰に基づく新しい次元削減フレームワークとベイズ能動学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-11T01:20:35Z) - Nonparametric Functional Analysis of Generalized Linear Models Under
Nonlinear Constraints [0.0]
本稿では、一般化線形モデルのための新しい非パラメトリック方法論を紹介する。
これは二項回帰の強さとカテゴリーデータに対する潜在変数の定式化の強さを組み合わせたものである。
これは最近公開された方法論のパラメトリックバージョンを拡張し、一般化する。
論文 参考訳(メタデータ) (2021-10-11T04:49:59Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Non-parametric Models for Non-negative Functions [48.7576911714538]
同じ良い線形モデルから非負関数に対する最初のモデルを提供する。
我々は、それが表現定理を認め、凸問題に対する効率的な二重定式化を提供することを証明した。
論文 参考訳(メタデータ) (2020-07-08T07:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。