Fugu-MT 論文翻訳(概要): Random Function Descent

論文の概要: Random Function Descent

arxiv url: http://arxiv.org/abs/2305.01377v2
Date: Mon, 10 Jun 2024 07:57:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 05:48:34.442544
Title: Random Function Descent
Title（参考訳）: ランダム関数の老化
Authors: Felix Benning, Leif Döring,
Abstract要約: 我々は勾配降下を再発見するために'stochastic Taylor approximation' を用いる。この再検討によって、Random Descent(RFD)と呼ばれるステップサイズスケジュールが得られます。 RFDのステップサイズスケジュールを推定する統計的手法を提案し,この理論をMNISTデータセットのケーススタディで検証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Classical worst-case optimization theory neither explains the success of optimization in machine learning, nor does it help with step size selection. We establish a connection between Bayesian Optimization (i.e. average case optimization theory) and classical optimization using a 'stochastic Taylor approximation' to rediscover gradient descent. This rediscovery yields a step size schedule we call Random Function Descent (RFD), which, in contrast to classical derivations, is scale invariant. Furthermore, our analysis of RFD step sizes yields a theoretical foundation for common step size heuristics such as gradient clipping and gradual learning rate warmup. We finally propose a statistical procedure for estimating the RFD step size schedule and validate this theory with a case study on the MNIST dataset.
Abstract（参考訳）: 古典的な最悪の最適化理論は、機械学習における最適化の成功を説明せず、ステップサイズの選択にも役立ちません。ベイズ最適化(平均ケース最適化理論)と古典最適化の接続を'stochastic Taylor approximation' を用いて確立し、勾配降下を再発見する。この再粘性は、古典的導出とは対照的にスケール不変であるRandom Function Descent (RFD)と呼ばれるステップサイズスケジュールをもたらす。さらに, RFDステップサイズの解析は, 勾配クリッピングや漸進的学習率のウォームアップといった一般的なステップサイズヒューリスティックスの基礎となる。最終的に、RFDステップサイズスケジュールを推定するための統計的手順を提案し、この理論をMNISTデータセットのケーススタディで検証する。

関連論文リスト

Memory-Efficient Gradient Unrolling for Large-Scale Bi-level Optimization [71.35604981129838]
双レベル最適化は階層型機械学習問題に対処するための基本的な数学的枠組みとなっている。従来の勾配に基づく二段階最適化アルゴリズムは、大規模アプリケーションの要求を満たすには不適である。両レベル最適化のためのメタ勾配の偏りのない近似を実現するための$(textFG)2textU$を導入する。
論文参考訳（メタデータ） (2024-06-20T08:21:52Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文参考訳（メタデータ） (2023-05-30T17:47:27Z)
Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文参考訳（メタデータ） (2023-03-02T00:57:38Z)
Deterministic Nonsmooth Nonconvex Optimization [94.01526844386977]
次元自由な次元自由アルゴリズムを得るにはランダム化が必要であることを示す。我々のアルゴリズムは、ReLUネットワークを最適化する最初の決定論的次元自由アルゴリズムを得る。
論文参考訳（メタデータ） (2023-02-16T13:57:19Z)
Target-based Surrogates for Stochastic Optimization [26.35752393302125]
我々は(おそらく)勾配を計算するのに費用がかかる関数の最小化を考える。このような機能は、計算強化学習、模倣学習、および敵の訓練で広く用いられている。我々のフレームワークは、最適化アルゴリズムを用いて、効率的に最小化できるサロゲートを構築することができる。
論文参考訳（メタデータ） (2023-02-06T08:08:34Z)
Finding Global Minima via Kernel Approximations [90.42048080064849]
関数評価のみに基づく滑らかな関数のグローバル最小化を考える。本稿では,近似関数を共同でモデル化し,大域的最小値を求める手法を検討する。
論文参考訳（メタデータ） (2020-12-22T12:59:30Z)
Non-local Optimization: Imposing Structure on Optimization Problems by Relaxation [0.0]
進化的計算と強化学習において、関数 $f: Omega to mathbbR$ の最適化はしばしば、Theta mapto mathbbE_theta(f)$ of $f$ の緩和 $theta を最適化することで解決される。測度理論とフーリエ解析を用いてそのような緩和構造を考察し、多くの関連する最適化手法の成功に光を当てることを可能にした。
論文参考訳（メタデータ） (2020-11-11T20:45:47Z)
SGB: Stochastic Gradient Bound Method for Optimizing Partition Functions [15.33098084159285]
本稿では,学習環境における分割関数の最適化の問題に対処する。本稿では,2次代理を持つ分割関数の上界に依存する有界偏化アルゴリズムの変種を提案する。
論文参考訳（メタデータ） (2020-11-03T04:42:51Z)
Gradient Free Minimax Optimization: Variance Reduction and Faster Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文参考訳（メタデータ） (2020-06-16T17:55:46Z)
Incorporating Expert Prior in Bayesian Optimisation via Space Warping [54.412024556499254]
大きな探索空間では、アルゴリズムは関数の最適値に達する前に、いくつかの低関数値領域を通過する。このコールドスタートフェーズの1つのアプローチは、最適化を加速できる事前知識を使用することである。本稿では,関数の事前分布を通じて,関数の最適性に関する事前知識を示す。先行分布は、探索空間を最適関数の高確率領域の周りに拡張し、最適関数の低確率領域の周りに縮小するようにワープする。
論文参考訳（メタデータ） (2020-03-27T06:18:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。