論文の概要: On the Effectiveness of Richardson Extrapolation in Machine Learning
- arxiv url: http://arxiv.org/abs/2002.02835v3
- Date: Fri, 17 Jul 2020 14:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 05:20:30.080909
- Title: On the Effectiveness of Richardson Extrapolation in Machine Learning
- Title(参考訳): 機械学習におけるリチャードソン補間の有効性について
- Authors: Francis Bach (LIENS, SIERRA)
- Abstract要約: Richardson は数値解析の手法であり、推定法の近似誤差を改善することができる。
リチャードソン補間法は性能に大きな損失を伴わず、時には大きな利益をもたらすことが示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Richardson extrapolation is a classical technique from numerical analysis
that can improve the approximation error of an estimation method by combining
linearly several estimates obtained from different values of one of its
hyperparameters, without the need to know in details the inner structure of the
original estimation method. The main goal of this paper is to study when
Richardson extrapolation can be used within machine learning, beyond the
existing applications to step-size adaptations in stochastic gradient descent.
We identify two situations where Richardson interpolation can be useful: (1)
when the hyperparameter is the number of iterations of an existing iterative
optimization algorithm, with applications to averaged gradient descent and
Frank-Wolfe algorithms (where we obtain asymptotically rates of $O(1/k^2)$ on
polytopes, where $k$ is the number of iterations), and (2) when it is a
regularization parameter, with applications to Nesterov smoothing techniques
for minimizing non-smooth functions (where we obtain asymptotically rates close
to $O(1/k^2)$ for non-smooth functions), and ridge regression. In all these
cases, we show that extrapolation techniques come with no significant loss in
performance, but with sometimes strong gains, and we provide theoretical
justifications based on asymptotic developments for such gains, as well as
empirical illustrations on classical problems from machine learning.
- Abstract(参考訳): リチャードソン外挿法(Richardson extrapolation)は、推定法の内部構造を詳細に知ることなく、その1つのハイパーパラメータの異なる値から得られる複数の推定値を線形に組み合わせることで、推定法の近似誤差を改善することができる古典的な解析手法である。
この論文の主な目標は、リチャードソン外挿が、確率的勾配降下におけるステップサイズ適応への既存の応用を超えて、機械学習内でいつ使用できるかを研究することである。
We identify two situations where Richardson interpolation can be useful: (1) when the hyperparameter is the number of iterations of an existing iterative optimization algorithm, with applications to averaged gradient descent and Frank-Wolfe algorithms (where we obtain asymptotically rates of $O(1/k^2)$ on polytopes, where $k$ is the number of iterations), and (2) when it is a regularization parameter, with applications to Nesterov smoothing techniques for minimizing non-smooth functions (where we obtain asymptotically rates close to $O(1/k^2)$ for non-smooth functions), and ridge regression.
これらすべてのケースにおいて、外挿技術は性能に有意な損失を伴わないが、時には強い利得を伴い、そのような利得に対する漸近的発展に基づく理論的正当化と、機械学習による古典的問題に関する実証的な図示を提供する。
関連論文リスト
- Fast Nonlinear Two-Time-Scale Stochastic Approximation: Achieving $O(1/k)$ Finite-Sample Complexity [2.5382095320488665]
本稿では,2つの結合非線形作用素の根を探すために,2時間スケールのモノトン近似の新しい変種を開発することを提案する。
私たちのキーとなるアイデアは、古典的なRuppert-Polyak平均化技術を活用して、それらのサンプルを通して演算子を動的に推定することです。
これらの平均ステップの見積値は、望まれる解を見つけるために、2時間スケールの近似更新で使用される。
論文 参考訳(メタデータ) (2024-01-23T13:44:15Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient [6.563379950720334]
我々は,不連続勾配による最適化問題を解くために,e-TH$varepsilon$O POULAと呼ばれる新しいランゲヴィン力学に基づくアルゴリズムを導入する。
金融と保険の3つの重要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化におけるトランスファーラーニング、保険請求予測がある。
論文 参考訳(メタデータ) (2022-10-24T13:10:06Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Non-asymptotic estimates for TUSLA algorithm for non-convex learning
with applications to neural networks with ReLU activation function [3.5044892799305956]
Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。
特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。
TUSLAアルゴリズムは最適解に急速に収束することを示す。
論文 参考訳(メタデータ) (2021-07-19T07:13:02Z) - L2M: Practical posterior Laplace approximation with optimization-driven
second moment estimation [0.0]
ディープニューラルネットワークの不確かさの定量化は、最近多くの技術を通して進化してきた。
いくつかの規則性条件下では、勾配第二モーメントを用いてラプラス近似を簡単に構築できることが示される。
論文 参考訳(メタデータ) (2021-07-09T22:14:54Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。