論文の概要: Random Function Descent
- arxiv url: http://arxiv.org/abs/2305.01377v1
- Date: Tue, 2 May 2023 12:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:37:05.490532
- Title: Random Function Descent
- Title(参考訳): ランダム関数の老化
- Authors: Felix Benning and Leif D\"oring
- Abstract要約: Random Descent (RFD) は勾配降下と同一であるが, 計算可能なステップサイズを示す。
また、RFDは調律されたAdamと競合していることを示す。
チューニングされたAdamのパフォーマンスギャップを埋めるため、チューニングされたAdamと競合する拡張を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While gradient based methods are ubiquitous in machine learning, selecting
the right step size often requires "hyperparameter tuning". This is because
backtracking procedures like Armijo's rule depend on quality evaluations in
every step, which are not available in a stochastic context. Since optimization
schemes can be motivated using Taylor approximations, we replace the Taylor
approximation with the conditional expectation (the best $L^2$ estimator) and
propose "Random Function Descent" (RFD). Under light assumptions common in
Bayesian optimization, we prove that RFD is identical to gradient descent, but
with calculable step sizes, even in a stochastic context. We beat untuned Adam
in synthetic benchmarks. To close the performance gap to tuned Adam, we propose
a heuristic extension competitive with tuned Adam.
- Abstract(参考訳): 勾配に基づく手法は機械学習ではユビキタスであるが、適切なステップサイズを選択するには「ハイパーパラメータチューニング」が必要となることが多い。
これは、Armijoの規則のようなバックトラック手順が、確率的な文脈では利用できないすべてのステップにおける品質評価に依存するためである。
最適化スキームはテイラー近似を用いて動機づけられるので、テイラー近似を条件付き期待値 (best $l^2$ estimator) に置き換え、「ランダム関数降下」(rfd) を提案する。
ベイズ最適化に共通する光仮定の下では、RFDは勾配降下と同一であるが、確率的文脈においても計算可能なステップサイズで証明する。
我々は合成ベンチマークで未修正のAdamを破った。
チューニングされたAdamのパフォーマンスギャップを埋めるため、チューニングされたAdamと競合するヒューリスティック拡張を提案する。
関連論文リスト
- Tuning-Free Stochastic Optimization [23.45739865304092]
大規模な機械学習の問題は、自らをオンザフライでチューニングできるアルゴリズムを必要とする。
最適に調整された凸勾配Descent領域の概念を定式化する。
チューニング不要なアルゴリズムSGDが,既存のアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2024-02-12T16:59:06Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。
本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文 参考訳(メタデータ) (2023-02-06T23:39:13Z) - Optimal and instance-dependent guarantees for Markovian linear
stochastic approximation [77.84027086542827]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z) - On Stochastic Moving-Average Estimators for Non-Convex Optimization [105.22760323075008]
本稿では,移動平均(SEMA)問題に基づく広く利用されている推定器のパワーを実証する。
これらすべてのアートな結果に対して、これらのアートな問題に対する結果も提示します。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - SGB: Stochastic Gradient Bound Method for Optimizing Partition Functions [15.33098084159285]
本稿では,学習環境における分割関数の最適化の問題に対処する。
本稿では,2次代理を持つ分割関数の上界に依存する有界偏化アルゴリズムの変種を提案する。
論文 参考訳(メタデータ) (2020-11-03T04:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。