論文の概要: A finite sample analysis of the benign overfitting phenomenon for ridge
function estimation
- arxiv url: http://arxiv.org/abs/2007.12882v3
- Date: Thu, 28 Jan 2021 19:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 00:43:44.833293
- Title: A finite sample analysis of the benign overfitting phenomenon for ridge
function estimation
- Title(参考訳): リッジ関数推定のための良性過剰フィッティング現象の有限サンプル解析
- Authors: Emmanuel Caron and Stephane Chretien
- Abstract要約: パラメータ数$p$がサンプルサイズ$n$に近づくと、一般化エラーが増加するが、多くの場合、閾値$p=n$を超えると再び減少し始める。
以上の結果から,最適推定器の真のパラメータからの距離を正確に解析するとともに,最近のcitebartlett 2020benign とcitechinot 2020benign を補完する一般化境界が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent extensive numerical experiments in high scale machine learning have
allowed to uncover a quite counterintuitive phase transition, as a function of
the ratio between the sample size and the number of parameters in the model. As
the number of parameters $p$ approaches the sample size $n$, the generalisation
error (a.k.a. testing error) increases, but in many cases, it starts decreasing
again past the threshold $p=n$. This surprising phenomenon, brought to the
theoretical community attention in \cite{belkin2019reconciling}, has been
thoroughly investigated lately, more specifically for simpler models than deep
neural networks, such as the linear model when the parameter is taken to be the
minimum norm solution to the least-square problem, mostly in the asymptotic
regime when $p$ and $n$ tend to $+\infty$; see e.g. \cite{hastie2019surprises}.
In the present paper, we propose a finite sample analysis of non-linear models
of \textit{ridge} type, where we investigate the \textit{overparametrised
regime} of the double descent phenomenon for both the \textit{estimation
problem} and the \textit{prediction} problem. Our results provide a precise
analysis of the distance of the best estimator from the true parameter as well
as a generalisation bound which complements recent works of
\cite{bartlett2020benign} and \cite{chinot2020benign}. Our analysis is based on
efficient but elementary tools closely related to the continuous Newton method
\cite{neuberger2007continuous}.
- Abstract(参考訳): 近年、機械学習における大規模な数値実験により、サンプルサイズとモデルのパラメータ数との比の関数として、非常に直観的な位相遷移が明らかになった。
パラメータ数 $p$ がサンプルサイズ $n$ に近づくにつれて、一般化エラー(つまりテストエラー)が増加するが、多くの場合、閾値 $p=n$ を越えて再び減少し始める。
この驚くべき現象は、近ごろ cite{belkin2019reconciling} において理論的なコミュニティの注意を惹き付け、より具体的には、より単純なモデル、例えばパラメータが最小二乗問題に対する最小のノルム解であるとする線形モデル(主に、$p$ と $n$ が$+\infty$ となる漸近的な状態において)において、ディープニューラルネットワークよりもより単純なモデルに対して徹底的に研究されている。
そこで,本論文では,2重降下現象の「textit{overparametrised regime}」と「textit{prediction}」の両問題に対する「textit{overparametrised regime}」の非線形モデルの有限サンプル解析を提案する。
この結果は、真パラメータから最適推定器の距離を正確に解析し、また、近年の \cite{bartlett2020benign} と \cite{chinot2020benign} を補完する一般化境界を与える。
本分析は, 連続ニュートン法に密接に関連した, 効率的だが初等的なツールに基づく。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - Single Trajectory Nonparametric Learning of Nonlinear Dynamics [8.438421942654292]
力学系の1つの軌道が与えられた場合、非パラメトリック最小二乗推定器(LSE)の性能を解析する。
我々は最近開発された情報理論手法を活用し、非仮説クラスに対するLSEの最適性を確立する。
我々は、リプシッツ力学、一般化線形モデル、再生ケルネルヒルベルト空間(RKHS)のある種のクラスで記述される関数によって記述される力学など、実用上の関心のあるいくつかのシナリオを専門とする。
論文 参考訳(メタデータ) (2022-02-16T19:38:54Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Max-Linear Regression by Convex Programming [5.366354612549172]
我々は、最大線形回帰問題の推定器として、アンカーレグレッション(AR)によって与えられるスケーラブルな凸プログラムを定式化し、解析する。
以上の結果から, 対数係数まで, 正確な回復スケールについて, 十分な数のノイズのない観測結果が得られた。
論文 参考訳(メタデータ) (2021-03-12T00:55:54Z) - Last iterate convergence of SGD for Least-Squares in the Interpolation
regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。
最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文 参考訳(メタデータ) (2021-02-05T14:02:20Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。