論文の概要: Gradient Descent Converges Linearly for Logistic Regression on Separable
Data
- arxiv url: http://arxiv.org/abs/2306.14381v1
- Date: Mon, 26 Jun 2023 02:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:15:07.391972
- Title: Gradient Descent Converges Linearly for Logistic Regression on Separable
Data
- Title(参考訳): 分離データに対するロジスティック回帰のための勾配降下収束
- Authors: Kyriakos Axiotis and Maxim Sviridenko
- Abstract要約: 変動学習率による勾配勾配降下は損失$f(x) leq 1.1 cdot f(x*) + epsilon$ロジスティック回帰目標を示す。
また、ロジスティックなレグレッションを緩やかなレグレッションに適用し、スペルシ・エラーのトレードオフを指数関数的に改善する。
- 参考スコア(独自算出の注目度): 17.60502131429094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that running gradient descent with variable learning rate guarantees
loss $f(x) \leq 1.1 \cdot f(x^*) + \epsilon$ for the logistic regression
objective, where the error $\epsilon$ decays exponentially with the number of
iterations and polynomially with the magnitude of the entries of an arbitrary
fixed solution $x^*$. This is in contrast to the common intuition that the
absence of strong convexity precludes linear convergence of first-order
methods, and highlights the importance of variable learning rates for gradient
descent. We also apply our ideas to sparse logistic regression, where they lead
to an exponential improvement of the sparsity-error tradeoff.
- Abstract(参考訳): 変動学習率による勾配降下は、ロジスティック回帰目標に対して損失$f(x) \leq 1.1 \cdot f(x^*) + \epsilon$を保証し、誤差$\epsilon$は反復数で指数関数的に減衰し、任意の固定解$x^*$のエントリの大きさで多項式的に崩壊することを示す。
これは、強い凸性の欠如が一階法の線形収束を妨げるという共通の直観とは対照的であり、勾配降下における可変学習率の重要性を強調している。
また、当社のアイデアをロジスティック回帰のスパースに適用することで、スパーシティ-エラートレードオフを指数関数的に改善します。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stochastic gradient descent for streaming linear and rectified linear
systems with Massart noise [9.841406613646813]
我々は,SGD-expを最大50%のMassart汚職率で真のパラメータにほぼ線形収束する新しい保証を示す。
これはストリーミング環境での堅牢なReLU回帰に対する初めての収束保証結果である。
論文 参考訳(メタデータ) (2024-03-02T12:45:01Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Fast Robust Kernel Regression through Sign Gradient Descent with Early Stopping [1.5229257192293204]
カーネルリッジ回帰(カーネルリッジ回帰、英: Kernel ridge regression、KRR)は、データにおいて非線形であるが、モデルパラメータでは線形である線形リッジ回帰の一般化である。
我々は、KRRの目的関数の等価な定式化を導入し、リッジペナルティを$ell_infty$と$ell_1$ペナルティに置き換えた。
論文 参考訳(メタデータ) (2023-06-29T10:29:29Z) - Multinomial Logistic Regression Algorithms via Quadratic Gradient [0.0]
本稿では,Adagrad法を高速化する適応勾配アルゴリズム(Adagrad)を提案する。
我々は、いくつかのマルチクラスプロブレムデータセット上で、拡張NAG法と拡張Adagrad法をテストする。
論文 参考訳(メタデータ) (2022-08-14T11:00:27Z) - Nonparametric regression with modified ReLU networks [77.34726150561087]
ネットワーク重み行列を入力ベクトルに乗じる前に,まず関数$alpha$で修正したReLUニューラルネットワークによる回帰推定を考察する。
論文 参考訳(メタデータ) (2022-07-17T21:46:06Z) - Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。
この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文 参考訳(メタデータ) (2021-07-01T16:36:39Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z) - Implicit Bias of Gradient Descent for Mean Squared Error Regression with
Two-Layer Wide Neural Networks [1.3706331473063877]
幅$n$浅いReLUネットワークをトレーニングする解は、トレーニングデータに適合する関数の$n-1/2$以内であることを示す。
また, トレーニング軌道はスムーズなスプラインの軌道によって捕捉され, 正規化強度は低下することを示した。
論文 参考訳(メタデータ) (2020-06-12T17:46:40Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。
これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文 参考訳(メタデータ) (2017-10-27T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。