論文の概要: On the Effectiveness of Richardson Extrapolation in Machine Learning
- arxiv url: http://arxiv.org/abs/2002.02835v3
- Date: Fri, 17 Jul 2020 14:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 05:20:30.080909
- Title: On the Effectiveness of Richardson Extrapolation in Machine Learning
- Title(参考訳): 機械学習におけるリチャードソン補間の有効性について
- Authors: Francis Bach (LIENS, SIERRA)
- Abstract要約: Richardson は数値解析の手法であり、推定法の近似誤差を改善することができる。
リチャードソン補間法は性能に大きな損失を伴わず、時には大きな利益をもたらすことが示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Richardson extrapolation is a classical technique from numerical analysis
that can improve the approximation error of an estimation method by combining
linearly several estimates obtained from different values of one of its
hyperparameters, without the need to know in details the inner structure of the
original estimation method. The main goal of this paper is to study when
Richardson extrapolation can be used within machine learning, beyond the
existing applications to step-size adaptations in stochastic gradient descent.
We identify two situations where Richardson interpolation can be useful: (1)
when the hyperparameter is the number of iterations of an existing iterative
optimization algorithm, with applications to averaged gradient descent and
Frank-Wolfe algorithms (where we obtain asymptotically rates of $O(1/k^2)$ on
polytopes, where $k$ is the number of iterations), and (2) when it is a
regularization parameter, with applications to Nesterov smoothing techniques
for minimizing non-smooth functions (where we obtain asymptotically rates close
to $O(1/k^2)$ for non-smooth functions), and ridge regression. In all these
cases, we show that extrapolation techniques come with no significant loss in
performance, but with sometimes strong gains, and we provide theoretical
justifications based on asymptotic developments for such gains, as well as
empirical illustrations on classical problems from machine learning.
- Abstract(参考訳): リチャードソン外挿法(Richardson extrapolation)は、推定法の内部構造を詳細に知ることなく、その1つのハイパーパラメータの異なる値から得られる複数の推定値を線形に組み合わせることで、推定法の近似誤差を改善することができる古典的な解析手法である。
この論文の主な目標は、リチャードソン外挿が、確率的勾配降下におけるステップサイズ適応への既存の応用を超えて、機械学習内でいつ使用できるかを研究することである。
We identify two situations where Richardson interpolation can be useful: (1) when the hyperparameter is the number of iterations of an existing iterative optimization algorithm, with applications to averaged gradient descent and Frank-Wolfe algorithms (where we obtain asymptotically rates of $O(1/k^2)$ on polytopes, where $k$ is the number of iterations), and (2) when it is a regularization parameter, with applications to Nesterov smoothing techniques for minimizing non-smooth functions (where we obtain asymptotically rates close to $O(1/k^2)$ for non-smooth functions), and ridge regression.
これらすべてのケースにおいて、外挿技術は性能に有意な損失を伴わないが、時には強い利得を伴い、そのような利得に対する漸近的発展に基づく理論的正当化と、機械学習による古典的問題に関する実証的な図示を提供する。
関連論文リスト
- Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for
stochastic optimization problems with discontinuous stochastic gradient [7.170021086161168]
我々は,不連続勾配による最適化問題を解くために,e-TH$varepsilon$O POULAと呼ばれる新しいランゲヴィン力学に基づくアルゴリズムを導入する。
金融と保険の3つの重要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化におけるトランスファーラーニング、保険請求予測がある。
論文 参考訳(メタデータ) (2022-10-24T13:10:06Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Non-asymptotic estimates for TUSLA algorithm for non-convex learning
with applications to neural networks with ReLU activation function [3.5044892799305956]
Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。
特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。
TUSLAアルゴリズムは最適解に急速に収束することを示す。
論文 参考訳(メタデータ) (2021-07-19T07:13:02Z) - L2M: Practical posterior Laplace approximation with optimization-driven
second moment estimation [0.0]
ディープニューラルネットワークの不確かさの定量化は、最近多くの技術を通して進化してきた。
いくつかの規則性条件下では、勾配第二モーメントを用いてラプラス近似を簡単に構築できることが示される。
論文 参考訳(メタデータ) (2021-07-09T22:14:54Z) - Near-Optimal High Probability Complexity Bounds for Non-Smooth
Stochastic Optimization with Heavy-Tailed Noise [63.304196997102494]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
既存の非滑らか凸最適化法は、負のパワーまたは対数的な信頼度に依存する境界の複雑さを持つ。
クリッピングを用いた2つの勾配法に対して, 新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Nearest Neighbour Based Estimates of Gradients: Sharp Nonasymptotic
Bounds and Applications [0.6445605125467573]
勾配推定は統計学と学習理論において重要である。
ここでは古典的な回帰設定を考えると、実値の正方形可積分 r.v.$Y$ が予測される。
代替推定法で得られた値に対して, 漸近的境界が改良されることを証明した。
論文 参考訳(メタデータ) (2020-06-26T15:19:43Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。