論文の概要: Random Function Descent
- arxiv url: http://arxiv.org/abs/2305.01377v3
- Date: Tue, 15 Oct 2024 12:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:07.476902
- Title: Random Function Descent
- Title(参考訳): ランダム関数の老化
- Authors: Felix Benning, Leif Döring,
- Abstract要約: a'tochastic Taylor' to gradient descent is scalable in high yields。
具体的には、高収率でスケーラブルな勾配降下に'tochastic Taylor' を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Classical worst-case optimization theory neither explains the success of optimization in machine learning, nor does it help with step size selection. In this paper we demonstrate the viability and advantages of replacing the classical 'convex function' framework with a 'random function' framework. With complexity $\mathcal{O}(n^3d^3)$, where $n$ is the number of steps and $d$ the number of dimensions, Bayesian optimization with gradients has not been viable in large dimension so far. By bridging the gap between Bayesian optimization (i.e. random function optimization theory) and classical optimization we establish viability. Specifically, we use a 'stochastic Taylor approximation' to rediscover gradient descent, which is scalable in high dimension due to $\mathcal{O}(nd)$ complexity. This rediscovery yields a specific step size schedule we call Random Function Descent (RFD). The advantage of this random function framework is that RFD is scale invariant and that it provides a theoretical foundation for common step size heuristics such as gradient clipping and gradual learning rate warmup.
- Abstract(参考訳): 古典的な最悪の最適化理論は、機械学習における最適化の成功を説明せず、ステップサイズの選択にも役立ちません。
本稿では,古典的な「凸関数」フレームワークを「ランダム関数」フレームワークに置き換える可能性と利点を示す。
複雑性 $\mathcal{O}(n^3d^3)$ では、$n$ はステップの数、$d$ は次元の数であるので、勾配によるベイズ最適化は、これまでのところ大きな次元では実現されていない。
ベイズ最適化(すなわちランダム関数最適化理論)と古典最適化のギャップを埋めることで、生存性を確立する。
具体的には、'stochastic Taylor approximation' を用いて勾配降下を再発見し、これは $\mathcal{O}(nd)$ complexity によって高次元でスケーラブルである。
この再検討によって、Random Function Descent (RFD)と呼ばれる特定のステップサイズスケジュールが得られます。
このランダム関数フレームワークの利点は、RFDはスケール不変であり、勾配クリッピングや漸進学習率ウォームアップのような一般的なステップサイズヒューリスティックの理論的基礎を提供することである。
関連論文リスト
- ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。
本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-05-30T17:47:27Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - Deterministic Nonsmooth Nonconvex Optimization [94.01526844386977]
次元自由な次元自由アルゴリズムを得るにはランダム化が必要であることを示す。
我々のアルゴリズムは、ReLUネットワークを最適化する最初の決定論的次元自由アルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-16T13:57:19Z) - Target-based Surrogates for Stochastic Optimization [26.35752393302125]
我々は(おそらく)勾配を計算するのに費用がかかる関数の最小化を考える。
このような機能は、計算強化学習、模倣学習、および敵の訓練で広く用いられている。
我々のフレームワークは、最適化アルゴリズムを用いて、効率的に最小化できるサロゲートを構築することができる。
論文 参考訳(メタデータ) (2023-02-06T08:08:34Z) - Finding Global Minima via Kernel Approximations [90.42048080064849]
関数評価のみに基づく滑らかな関数のグローバル最小化を考える。
本稿では,近似関数を共同でモデル化し,大域的最小値を求める手法を検討する。
論文 参考訳(メタデータ) (2020-12-22T12:59:30Z) - Non-local Optimization: Imposing Structure on Optimization Problems by
Relaxation [0.0]
進化的計算と強化学習において、関数 $f: Omega to mathbbR$ の最適化はしばしば、Theta mapto mathbbE_theta(f)$ of $f$ の緩和 $theta を最適化することで解決される。
測度理論とフーリエ解析を用いてそのような緩和構造を考察し、多くの関連する最適化手法の成功に光を当てることを可能にした。
論文 参考訳(メタデータ) (2020-11-11T20:45:47Z) - SGB: Stochastic Gradient Bound Method for Optimizing Partition Functions [15.33098084159285]
本稿では,学習環境における分割関数の最適化の問題に対処する。
本稿では,2次代理を持つ分割関数の上界に依存する有界偏化アルゴリズムの変種を提案する。
論文 参考訳(メタデータ) (2020-11-03T04:42:51Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Incorporating Expert Prior in Bayesian Optimisation via Space Warping [54.412024556499254]
大きな探索空間では、アルゴリズムは関数の最適値に達する前に、いくつかの低関数値領域を通過する。
このコールドスタートフェーズの1つのアプローチは、最適化を加速できる事前知識を使用することである。
本稿では,関数の事前分布を通じて,関数の最適性に関する事前知識を示す。
先行分布は、探索空間を最適関数の高確率領域の周りに拡張し、最適関数の低確率領域の周りに縮小するようにワープする。
論文 参考訳(メタデータ) (2020-03-27T06:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。