Fugu-MT 論文翻訳(概要): Random Function Descent

論文の概要: Random Function Descent

arxiv url: http://arxiv.org/abs/2305.01377v1
Date: Tue, 2 May 2023 12:53:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-03 14:37:05.490532
Title: Random Function Descent
Title（参考訳）: ランダム関数の老化
Authors: Felix Benning and Leif D\"oring
Abstract要約: Random Descent (RFD) は勾配降下と同一であるが, 計算可能なステップサイズを示す。また、RFDは調律されたAdamと競合していることを示す。チューニングされたAdamのパフォーマンスギャップを埋めるため、チューニングされたAdamと競合する拡張を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: While gradient based methods are ubiquitous in machine learning, selecting the right step size often requires "hyperparameter tuning". This is because backtracking procedures like Armijo's rule depend on quality evaluations in every step, which are not available in a stochastic context. Since optimization schemes can be motivated using Taylor approximations, we replace the Taylor approximation with the conditional expectation (the best $L^2$ estimator) and propose "Random Function Descent" (RFD). Under light assumptions common in Bayesian optimization, we prove that RFD is identical to gradient descent, but with calculable step sizes, even in a stochastic context. We beat untuned Adam in synthetic benchmarks. To close the performance gap to tuned Adam, we propose a heuristic extension competitive with tuned Adam.
Abstract（参考訳）: 勾配に基づく手法は機械学習ではユビキタスであるが、適切なステップサイズを選択するには「ハイパーパラメータチューニング」が必要となることが多い。これは、Armijoの規則のようなバックトラック手順が、確率的な文脈では利用できないすべてのステップにおける品質評価に依存するためである。最適化スキームはテイラー近似を用いて動機づけられるので、テイラー近似を条件付き期待値 (best $l^2$ estimator) に置き換え、「ランダム関数降下」(rfd) を提案する。ベイズ最適化に共通する光仮定の下では、RFDは勾配降下と同一であるが、確率的文脈においても計算可能なステップサイズで証明する。我々は合成ベンチマークで未修正のAdamを破った。チューニングされたAdamのパフォーマンスギャップを埋めるため、チューニングされたAdamと競合するヒューリスティック拡張を提案する。

関連論文リスト

Memory-Efficient Gradient Unrolling for Large-Scale Bi-level Optimization [71.35604981129838]
双レベル最適化は階層型機械学習問題に対処するための基本的な数学的枠組みとなっている。従来の勾配に基づく二段階最適化アルゴリズムは、大規模アプリケーションの要求を満たすには不適である。両レベル最適化のためのメタ勾配の偏りのない近似を実現するための$(textFG)2textU$を導入する。
論文参考訳（メタデータ） (2024-06-20T08:21:52Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文参考訳（メタデータ） (2023-05-30T17:47:27Z)
Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文参考訳（メタデータ） (2023-03-02T00:57:38Z)
Deterministic Nonsmooth Nonconvex Optimization [94.01526844386977]
次元自由な次元自由アルゴリズムを得るにはランダム化が必要であることを示す。我々のアルゴリズムは、ReLUネットワークを最適化する最初の決定論的次元自由アルゴリズムを得る。
論文参考訳（メタデータ） (2023-02-16T13:57:19Z)
Target-based Surrogates for Stochastic Optimization [26.35752393302125]
我々は(おそらく)勾配を計算するのに費用がかかる関数の最小化を考える。このような機能は、計算強化学習、模倣学習、および敵の訓練で広く用いられている。我々のフレームワークは、最適化アルゴリズムを用いて、効率的に最小化できるサロゲートを構築することができる。
論文参考訳（メタデータ） (2023-02-06T08:08:34Z)
Finding Global Minima via Kernel Approximations [90.42048080064849]
関数評価のみに基づく滑らかな関数のグローバル最小化を考える。本稿では,近似関数を共同でモデル化し,大域的最小値を求める手法を検討する。
論文参考訳（メタデータ） (2020-12-22T12:59:30Z)
Non-local Optimization: Imposing Structure on Optimization Problems by Relaxation [0.0]
進化的計算と強化学習において、関数 $f: Omega to mathbbR$ の最適化はしばしば、Theta mapto mathbbE_theta(f)$ of $f$ の緩和 $theta を最適化することで解決される。測度理論とフーリエ解析を用いてそのような緩和構造を考察し、多くの関連する最適化手法の成功に光を当てることを可能にした。
論文参考訳（メタデータ） (2020-11-11T20:45:47Z)
SGB: Stochastic Gradient Bound Method for Optimizing Partition Functions [15.33098084159285]
本稿では,学習環境における分割関数の最適化の問題に対処する。本稿では,2次代理を持つ分割関数の上界に依存する有界偏化アルゴリズムの変種を提案する。
論文参考訳（メタデータ） (2020-11-03T04:42:51Z)
Gradient Free Minimax Optimization: Variance Reduction and Faster Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文参考訳（メタデータ） (2020-06-16T17:55:46Z)
Incorporating Expert Prior in Bayesian Optimisation via Space Warping [54.412024556499254]
大きな探索空間では、アルゴリズムは関数の最適値に達する前に、いくつかの低関数値領域を通過する。このコールドスタートフェーズの1つのアプローチは、最適化を加速できる事前知識を使用することである。本稿では,関数の事前分布を通じて,関数の最適性に関する事前知識を示す。先行分布は、探索空間を最適関数の高確率領域の周りに拡張し、最適関数の低確率領域の周りに縮小するようにワープする。
論文参考訳（メタデータ） (2020-03-27T06:18:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。