論文の概要: Improved Learning Rates for Stochastic Optimization: Two Theoretical
Viewpoints
- arxiv url: http://arxiv.org/abs/2107.08686v1
- Date: Mon, 19 Jul 2021 08:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:06:31.850267
- Title: Improved Learning Rates for Stochastic Optimization: Two Theoretical
Viewpoints
- Title(参考訳): 確率最適化のための学習率の改善:2つの理論的視点
- Authors: Shaojie Li and Yong Liu
- Abstract要約: 最適化の一般化性能は機械学習の中心である。
本稿では,2つの一般的な最適化手法の学習率向上に向けた過大な取り組みについて検討する。
これらの課題に乗じて、凸学習における軽度の仮定の下で改善率を提供し、より高速な非学習率の導出を目指す。
- 参考スコア(独自算出の注目度): 7.33244617309908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization performance of stochastic optimization stands a central place
in machine learning. In this paper, we investigate the excess risk performance
and towards improved learning rates for two popular approaches of stochastic
optimization: empirical risk minimization (ERM) and stochastic gradient descent
(SGD). Although there exists plentiful generalization analysis of ERM and SGD
for supervised learning, current theoretical understandings of ERM and SGD are
either have stronger assumptions in convex learning, e.g., strong convexity
condition, or show slow rates and less studied in nonconvex learning. Motivated
by these problems, we aim to provide improved rates under milder assumptions in
convex learning and derive faster rates in nonconvex learning. It is notable
that our analysis span two popular theoretical viewpoints: stability and
uniform convergence. To be specific, in stability regime, we present high
probability rates of order $\mathcal{O} (1/n)$ w.r.t. the sample size $n$ for
ERM and SGD with milder assumptions in convex learning and similar high
probability rates of order $\mathcal{O} (1/n)$ in nonconvex learning, rather
than in expectation. Furthermore, this type of learning rate is improved to
faster order $\mathcal{O} (1/n^2)$ in uniform convergence regime. To the best
of our knowledge, for ERM and SGD, the learning rates presented in this paper
are all state-of-the-art.
- Abstract(参考訳): 確率最適化の一般化性能は、機械学習において中心的な位置を占める。
本稿では,経験的リスク最小化 (ERM) と確率勾配降下 (SGD) の2つの一般的な確率最適化手法について,過剰リスク性能と学習率の向上について検討する。
教師あり学習のためのermとsgdの豊富な一般化解析が存在するが、ermとsgdの現在の理論的理解は、強い凸条件のような凸学習においてより強い仮定を持つか、遅い速度を示し、非凸学習においてあまり研究されない。
これらの課題に乗じて、凸学習における軽度の仮定の下で改善率を提供し、非凸学習における高速化率の導出を目指す。
我々の分析は、安定性と一様収束という2つの一般的な理論的視点にまたがっている。
具体的には、安定状態において、次数 $\mathcal{o} (1/n)$ w.r.t の高い確率率を示す。
ERM と SGD のサンプルサイズ$n$ は、凸学習において軽度な仮定と、予想よりも非凸学習において$\mathcal{O} (1/n)$ のような高い確率率を持つ。
さらに、このタイプの学習速度は、一様収束状態においてより高速に$\mathcal{O} (1/n^2)$に改善される。
ERMとSGDの知識を最大限に活用するために、本論文で提示される学習率は、すべて最先端である。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。
理論上は魅力的だが、機械学習における優位性の応用は乏しい。
まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。
次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-05T03:21:23Z) - PROMISE: Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates [17.777466668123886]
PROMISE ($textbfPr$econditioned $textbfO$ptimization $textbfM$ethods by $textbfI$ncorporating $textbfS$calable Curvature $textbfE$stimates)はスケッチベースの事前条件勾配アルゴリズムである。
PROMISEには、SVRG、SAGA、およびKatyushaのプレコンディション版が含まれている。
論文 参考訳(メタデータ) (2023-09-05T07:49:10Z) - On the Stability and Generalization of Triplet Learning [55.75784102837832]
トリプルトラーニング(トリプルトラーニング)、すなわちトリプルトデータから学ぶことは、コンピュータビジョンタスクに大きな注目を集めている。
本稿では,安定解析を利用した三重項学習の一般化保証について検討する。
論文 参考訳(メタデータ) (2023-02-20T07:32:50Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Learning Rates for Nonconvex Pairwise Learning [7.33244617309908]
人口規模に基づいて多くの重要な学習タスクを改善するため、ペアワイズ学習が注目されている。
モチベーションされた非賢明な学習は、学習率を改善する。
論文 参考訳(メタデータ) (2021-11-09T16:12:20Z) - A High Probability Analysis of Adaptive SGD with Momentum [22.9530287983179]
Gradient Descent(DSG)とその変種は、機械学習アプリケーションで最も使われているアルゴリズムである。
モーメントを持つdelayedGrad の滑らかな非設定において、勾配が 0 になる確率を初めて示す。
論文 参考訳(メタデータ) (2020-07-28T15:06:22Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。