論文の概要: Gradient descent inference in empirical risk minimization
- arxiv url: http://arxiv.org/abs/2412.09498v1
- Date: Thu, 12 Dec 2024 17:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:31:02.010712
- Title: Gradient descent inference in empirical risk minimization
- Title(参考訳): 経験的リスク最小化における勾配降下推定
- Authors: Qiyang Han, Xiaocong Xu,
- Abstract要約: 勾配降下法は、現代の統計学習において最も広く使われている反復アルゴリズムの1つである。
本稿では,多種多様な経験的リスク最小化問題における勾配降下の精度,非漸近的特性について述べる。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License:
- Abstract: Gradient descent is one of the most widely used iterative algorithms in modern statistical learning. However, its precise algorithmic dynamics in high-dimensional settings remain only partially understood, which has therefore limited its broader potential for statistical inference applications. This paper provides a precise, non-asymptotic distributional characterization of gradient descent iterates in a broad class of empirical risk minimization problems, in the so-called mean-field regime where the sample size is proportional to the signal dimension. Our non-asymptotic state evolution theory holds for both general non-convex loss functions and non-Gaussian data, and reveals the central role of two Onsager correction matrices that precisely characterize the non-trivial dependence among all gradient descent iterates in the mean-field regime. Although the Onsager correction matrices are typically analytically intractable, our state evolution theory facilitates a generic gradient descent inference algorithm that consistently estimates these matrices across a broad class of models. Leveraging this algorithm, we show that the state evolution can be inverted to construct (i) data-driven estimators for the generalization error of gradient descent iterates and (ii) debiased gradient descent iterates for inference of the unknown signal. Detailed applications to two canonical models--linear regression and (generalized) logistic regression--are worked out to illustrate model-specific features of our general theory and inference methods.
- Abstract(参考訳): 勾配降下法は、現代の統計学習において最も広く使われている反復アルゴリズムの1つである。
しかし、その高次元設定における正確なアルゴリズム力学は、部分的にしか理解されておらず、したがって統計的推論応用に対するより広い可能性に制限されている。
本稿では,信号寸法に比例して試料サイズが比例する平均場状態において,幅広い種類の経験的リスク最小化問題において,勾配降下の正確な非漸近分布特性を提供する。
我々の非漸近状態進化論は一般の非凸損失関数と非ガウスデータの両方に成り立ち、平均場状態におけるすべての勾配降下イテレートの非自明な依存性を正確に特徴づける2つのオンサーガー補正行列の中心的役割を明らかにする。
オンザガー補正行列は典型的には解析的に解析可能であるが、我々の状態進化理論は、これらの行列を広範囲のモデルで一貫して推定する一般的な勾配降下推定アルゴリズムを促進する。
このアルゴリズムを利用することで、状態の進化が構築に逆転できることが示される。
一 勾配降下イテレートの一般化誤差に対するデータ駆動推定器
(ii) 未知の信号の推測のために偏り勾配降下が反復される。
線形回帰(英語版)と(一般化)ロジスティック回帰(英語版)の2つの正準モデルへの詳細な応用は、我々の一般理論と推論手法のモデル固有の特徴を説明するために研究されている。
関連論文リスト
- Generalization for Least Squares Regression With Simple Spiked Covariances [3.9134031118910264]
勾配降下によって訓練された2層ニューラルネットワークの一般化特性はいまだよく分かっていない。
最近の研究は、隠れた層における特徴行列のスペクトルを記述することで進展した。
しかし、スパイク共分散を持つ線形モデルの一般化誤差は以前には決定されていない。
論文 参考訳(メタデータ) (2024-10-17T19:46:51Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Gradient flow in the gaussian covariate model: exact solution of
learning curves and multiple descent structures [14.578025146641806]
一般化曲線の全時間進化を完全かつ統一的に解析する。
この理論予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:39:18Z) - Robust Regularized Low-Rank Matrix Models for Regression and
Classification [14.698622796774634]
本稿では,ランク制約,ベクトル正規化(疎性など),一般損失関数に基づく行列変分回帰モデルのフレームワークを提案する。
アルゴリズムは収束することが保証されており、アルゴリズムのすべての累積点が$O(sqrtn)$100の順序で推定誤差を持ち、最小値の精度をほぼ達成していることを示す。
論文 参考訳(メタデータ) (2022-05-14T18:03:48Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Lower Bounds on the Generalization Error of Nonlinear Learning Models [2.1030878979833467]
本稿では,多層ニューラルネットワークから導出したモデルの一般化誤差に対する下限について,学習データ中のサンプル数と層の大きさが一致した状況下で検討する。
偏りのない推定器は,このような非線形ネットワークでは受け入れられない性能を示す。
線形回帰や2層ネットワークの場合、一般偏差推定器の明示的な一般化の下界を導出する。
論文 参考訳(メタデータ) (2021-03-26T20:37:54Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。