Fugu-MT 論文翻訳(概要): Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability

論文の概要: Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability

arxiv url: http://arxiv.org/abs/2305.11788v2
Date: Sun, 15 Oct 2023 17:53:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 05:20:23.714890
Title: Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability
Title（参考訳）: 安定端におけるロジスティック回帰に対する勾配降下の暗黙的バイアス
Authors: Jingfeng Wu, Vladimir Braverman, Jason D. Lee
Abstract要約: 機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
参考スコア（独自算出の注目度）: 69.01076284478151
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research has observed that in machine learning optimization, gradient descent (GD) often operates at the edge of stability (EoS) [Cohen, et al., 2021], where the stepsizes are set to be large, resulting in non-monotonic losses induced by the GD iterates. This paper studies the convergence and implicit bias of constant-stepsize GD for logistic regression on linearly separable data in the EoS regime. Despite the presence of local oscillations, we prove that the logistic loss can be minimized by GD with \emph{any} constant stepsize over a long time scale. Furthermore, we prove that with \emph{any} constant stepsize, the GD iterates tend to infinity when projected to a max-margin direction (the hard-margin SVM direction) and converge to a fixed vector that minimizes a strongly convex potential when projected to the orthogonal complement of the max-margin direction. In contrast, we also show that in the EoS regime, GD iterates may diverge catastrophically under the exponential loss, highlighting the superiority of the logistic loss. These theoretical findings are in line with numerical simulations and complement existing theories on the convergence and implicit bias of GD for logistic regression, which are only applicable when the stepsizes are sufficiently small.
Abstract（参考訳）: 近年の機械学習最適化では、勾配降下(GD)が安定性の端(EoS)[Cohen, et al., 2021]で動作し、ステップサイズが大きくなるとGDの反復による非単調な損失が発生することが観察されている。本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数ステップGDの収束と暗黙バイアスについて検討する。局所的な振動が存在するにもかかわらず、ロジスティック損失は、長時間のスケールで \emph{any} 定数の GD によって最小化できることを示す。さらに, \emph{any} 定数がステップ化すると,gdイテレートは最大マージン方向(ハードマージンsvm方向)に射影すると無限になりがちで,最大マージン方向の直交補関数に射影するときに強い凸ポテンシャルを最小化する固定ベクトルに収束する。対照的に、EoS体制においては、GD反復剤は指数的損失の下で破滅的に分散し、ロジスティック損失の優位性を示す。これらの理論的な結果は数値シミュレーションと一致し、ステップ化が十分小さい場合にのみ適用できるロジスティック回帰に対するgdの収束と暗黙のバイアスに関する既存の理論を補完する。

関連論文リスト

Benefits of Early Stopping in Gradient Descent for Overparameterized Logistic Regression [28.3662709740417]
ロジスティック回帰では、勾配降下(GD)は最大$ell$-margin解に収束しながらノルムで分岐する。本研究は,高次元ロジスティック回帰における早期停止による追加正則化効果について検討する。
論文参考訳（メタデータ） (2025-02-18T21:04:06Z)
Any-stepsize Gradient Descent for Separable Data under Fenchel--Young Losses [17.835960292396255]
emphFenchel-Young損失の枠組みに基づく一般損失関数に対して任意のステップの勾配収束を示す。我々は、自己有界性の代わりに損失関数の分岐マージンによって、これらのより良いレートが可能であると論じる。
論文参考訳（メタデータ） (2025-02-07T12:52:12Z)
Algorithmic Stability of Stochastic Gradient Descent with Momentum under Heavy-Tailed Noise [20.922456964393213]
重み付き雑音下での運動量(SGDm)を持つSGDの一般化境界を確立する。二次損失関数に対して、SGDm は運動量や重みのあるテールの存在においてより悪い一般化を持つことを示す。我々の知る限り、縮退した雑音を持つSDEにおいて、その種類の最初の結果となる一様時間離散化誤差境界を開発する。
論文参考訳（メタデータ） (2025-02-02T19:25:48Z)
Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。 GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文参考訳（メタデータ） (2024-02-24T23:10:28Z)
Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文参考訳（メタデータ） (2024-02-08T15:15:09Z)
Max-affine regression via first-order methods [7.12511675782289]
最大アフィンモデルは信号処理と統計学の応用においてユビキタスに現れる。最大アフィン回帰に対する勾配降下(GD)とミニバッチ勾配降下(SGD)の非漸近収束解析を行った。
論文参考訳（メタデータ） (2023-08-15T23:46:44Z)
Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。 GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文参考訳（メタデータ） (2022-06-08T21:32:50Z)
High-dimensional limit theorems for SGD: Effective dynamics and critical scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文参考訳（メタデータ） (2022-06-08T17:42:18Z)
Chaotic Regularization and Heavy-Tailed Limits for Deterministic Gradient Descent [4.511923587827301]
勾配降下(GD)は、その力学がカオス的な振る舞いを示すときに一般化を改善することができる。本研究では, カオス成分をGDに制御的に組み込み, マルチスケール摂動GD(MPGD)を導入する。 MPGDは、GD再帰を独立力学系を介して進化するカオス摂動で拡張する新しい最適化フレームワークである。
論文参考訳（メタデータ） (2022-05-23T14:47:55Z)
On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。理論的にも経験的にも二重降下現象を観察する。
論文参考訳（メタデータ） (2021-10-13T17:47:39Z)
Last Iterate Risk Bounds of SGD with Decaying Stepsize for Overparameterized Linear Regression [122.70478935214128]
勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化されている。本稿では, 崩壊段階のSGDの最終反復リスク境界に関する問題依存解析を行う。
論文参考訳（メタデータ） (2021-10-12T17:49:54Z)
Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは経験的に過剰フィットを防げる中心的存在ですこの研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文参考訳（メタデータ） (2021-03-23T17:15:53Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。