論文の概要: A Brief Prehistory of Double Descent
- arxiv url: http://arxiv.org/abs/2004.04328v1
- Date: Tue, 7 Apr 2020 09:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:33:41.047795
- Title: A Brief Prehistory of Double Descent
- Title(参考訳): 二重継承の簡単な先史
- Authors: Marco Loog, Tom Viering, Alexander Mey, Jesse H. Krijthe, David M.J.
Tax
- Abstract要約: Belkin et al. は、現代の複雑度学習者の文脈におけるリスク曲線の形状を説明し、議論する。
N$が増加すると、リスクは最初減少し、最小値に達した後、N$が$n$に等しいまで増加し、トレーニングデータが完全に適合する。
- 参考スコア(独自算出の注目度): 75.37825440319975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In their thought-provoking paper [1], Belkin et al. illustrate and discuss
the shape of risk curves in the context of modern high-complexity learners.
Given a fixed training sample size $n$, such curves show the risk of a learner
as a function of some (approximate) measure of its complexity $N$. With $N$ the
number of features, these curves are also referred to as feature curves. A
salient observation in [1] is that these curves can display, what they call,
double descent: with increasing $N$, the risk initially decreases, attains a
minimum, and then increases until $N$ equals $n$, where the training data is
fitted perfectly. Increasing $N$ even further, the risk decreases a second and
final time, creating a peak at $N=n$. This twofold descent may come as a
surprise, but as opposed to what [1] reports, it has not been overlooked
historically. Our letter draws attention to some original, earlier findings, of
interest to contemporary machine learning.
- Abstract(参考訳): 研究論文[1]では、リスク曲線の形状を現代の複雑度学習者の文脈で説明し、議論している。
一定のトレーニングサンプルサイズ$n$が与えられると、そのような曲線は、複雑性の(ほぼ)尺度である$n$の関数として学習者のリスクを示す。
n$ の機能数では、これらの曲線は特徴曲線(feature curve)とも呼ばれる。
[1] における注目すべき観察は、これらの曲線が、彼らが「二重降下」と呼ぶものを表示することができることである: リスクを最初に増加させることで、リスクは減少し、最小値に達し、トレーニングデータが完璧に適合する$n$ まで増加する。
さらに$N$が増加すると、リスクは2回目と最終回を減少し、ピークは$N=n$になる。
この2倍の降下は驚きかもしれないが、[1]の報告とは対照的に歴史的に見過ごされていない。
われわれの書簡は、現代の機械学習に関心を持つ、初期の発見に注意を向けている。
関連論文リスト
- Learning to Price Homogeneous Data [6.288169915425957]
価格曲線を近似する新たな離散化手法を開発した。
オンラインアルゴリズムは UCB や FTPL のような古典的なアルゴリズムをベースとしています。
改良された離散化スキームを使用することで、設定で$tildeO(msqrtT)$後悔を達成でき、逆設定で$tildeO(m3/2sqrtT)$後悔を達成できます。
論文 参考訳(メタデータ) (2024-07-07T20:02:52Z) - Optimal Excess Risk Bounds for Empirical Risk Minimization on $p$-Norm Linear Regression [19.31269916674961]
実現可能な場合、即時仮定では、$O(d)$サンプルはターゲットを正確に回復するのに十分であることを示す。
この結果は、 (1, 2)$) の場合、最小化子におけるリスクのヘッセンの存在を保証する穏やかな仮定の下で、$p in (1, 2)$ に拡張する。
論文 参考訳(メタデータ) (2023-10-19T03:21:28Z) - Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。
グラフの構造は知られており、ノードは$N$である。
頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T16:21:31Z) - Overparametrized linear dimensionality reductions: From projection
pursuit to two-layer neural networks [10.368585938419619]
$mathbbRd$に$n$のデータポイントのクラウドが与えられると、$mathbbRd$の$m$次元部分空間へのすべての射影を考える。
この確率分布の集まりは、$n,d$が大きくなるとどのように見えるか?
この極限の低次元射影として生じる $mathbbRm$ の確率分布の集合の α$ を $mathscrF_m で表すと、$mathscrF_ に新たな内界と外界を確立する。
論文 参考訳(メタデータ) (2022-06-14T00:07:33Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z) - Triple descent and the two kinds of overfitting: Where & why do they
appear? [16.83019116094311]
明らかに類似しているにもかかわらず、ニューラルネットワークがノイズレグレッションタスクに適用された場合、両方のピークが共存可能であることを示す。
ピークの相対サイズは活性化関数の非線形性の度合いによって制御される。
このピークは非線形性によって暗黙的に正則化されることが示され、そのため高雑音下でのみ正則化される。
論文 参考訳(メタデータ) (2020-06-05T15:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。