論文の概要: Gradient descent follows the regularization path for general losses
- arxiv url: http://arxiv.org/abs/2006.11226v1
- Date: Fri, 19 Jun 2020 17:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:22:43.013339
- Title: Gradient descent follows the regularization path for general losses
- Title(参考訳): 一般損失の正規化経路に沿った勾配降下
- Authors: Ziwei Ji, Miroslav Dud\'ik, Robert E. Schapire, Matus Telgarsky
- Abstract要約: 任意の凸損失を持つ線形予測器上での実証的リスク最小化について,勾配降下経路とアルゴリズム非依存正規化経路は同じ方向に収束することを示す。
我々は、広く使われている指数関数的損失の正当化を提供する。
- 参考スコア(独自算出の注目度): 33.155195855431344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work across many machine learning disciplines has highlighted that
standard descent methods, even without explicit regularization, do not merely
minimize the training error, but also exhibit an implicit bias. This bias is
typically towards a certain regularized solution, and relies upon the details
of the learning process, for instance the use of the cross-entropy loss.
In this work, we show that for empirical risk minimization over linear
predictors with arbitrary convex, strictly decreasing losses, if the risk does
not attain its infimum, then the gradient-descent path and the
algorithm-independent regularization path converge to the same direction
(whenever either converges to a direction). Using this result, we provide a
justification for the widely-used exponentially-tailed losses (such as the
exponential loss or the logistic loss): while this convergence to a direction
for exponentially-tailed losses is necessarily to the maximum-margin direction,
other losses such as polynomially-tailed losses may induce convergence to a
direction with a poor margin.
- Abstract(参考訳): 多くの機械学習分野にわたる最近の研究は、標準降下法が、明示的な正規化なしにも、トレーニングエラーを最小化するだけでなく、暗黙のバイアスも示していることを強調している。
このバイアスは典型的には一定の規則化された解に向かっており、例えばクロスエントロピー損失の使用など、学習プロセスの詳細に依存する。
本研究では,任意の凸を持つ線形予測器上で経験的リスクを最小化し,損失を厳密に減少させる場合,リスクが不定点に達しない場合,勾配不定形化経路とアルゴリズム非依存正規化経路が同じ方向に収束することを示す。
この結果を用いて, 指数的損失やロジスティック損失など, 広く利用されている指数的損失の正当性を示す: この指数的損失の方向への収束は, 最大マージン方向に必然的に一致するが, 多項式的損失のような他の損失は, マージン率の低い方向への収束を引き起こす可能性がある。
関連論文リスト
- Refined Risk Bounds for Unbounded Losses via Transductive Priors [58.967816314671296]
線形回帰の逐次変分を2乗損失、ヒンジ損失の分類問題、ロジスティック回帰で再検討する。
我々の鍵となるツールは、慎重に選択された導出先を持つ指数重み付けアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2024-10-29T00:01:04Z) - LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - General Loss Functions Lead to (Approximate) Interpolation in High
Dimensions [6.738946307589741]
閉形式における勾配降下の暗黙バイアスを概ね特徴づける統一的な枠組みを提供する。
具体的には、暗黙バイアスが高次元の最小ノルムに近似されている(正確には同値ではない)ことを示す。
また,本フレームワークは,バイナリとマルチクラス設定間で指数関数的に制限された損失に対して,既存の正確な等価性を回復する。
論文 参考訳(メタデータ) (2023-03-13T21:23:12Z) - On the Importance of Gradient Norm in PAC-Bayesian Bounds [92.82627080794491]
対数ソボレフ不等式の縮約性を利用する新しい一般化法を提案する。
我々は、この新たな損失段階的ノルム項が異なるニューラルネットワークに与える影響を実証的に分析する。
論文 参考訳(メタデータ) (2022-10-12T12:49:20Z) - Beyond Lipschitz: Sharp Generalization and Excess Risk Bounds for
Full-Batch GD [31.80268332522017]
我々は、スムーズな損失(おそらく非Lipschitz)に対するフルバッチグラディエントデセント(GD)に対して、鋭い経路依存および過大なエラー保証を提供する。
我々の全バッチ一般化誤差と過剰リスク境界は、損失が滑らかである(しかし、おそらく非リプシッツ)GDの既存の境界よりもかなり厳密である。
論文 参考訳(メタデータ) (2022-04-26T17:05:57Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - On the generalization of bayesian deep nets for multi-class
classification [27.39403411896995]
我々は,Log-Sobolevの不等式の縮約性を利用して,ベイズ深度ネットの新たな一般化を提案する。
これらの不等式を使用すると、一般化境界に損失次数ノルム項が加わり、これは直感的にはモデルの複雑性の代用である。
論文 参考訳(メタデータ) (2020-02-23T09:05:03Z) - The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。
これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文 参考訳(メタデータ) (2017-10-27T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。