論文の概要: n-Step Temporal Difference Learning with Optimal n
- arxiv url: http://arxiv.org/abs/2303.07068v3
- Date: Thu, 13 Apr 2023 09:02:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 11:01:06.743526
- Title: n-Step Temporal Difference Learning with Optimal n
- Title(参考訳): 最適nによるnステップ時間差学習
- Authors: Lakshmi Mandal and Shalabh Bhatnagar
- Abstract要約: 我々は,n段階時間差(TD)学習アルゴリズムにおいて,nの最適値を求める問題を考察する。
同時摂動近似を含むモデルフリー最適化手法を用いて最適nを求める。
任意の初期値に対して、n の最適値は SDPSA で達成されることを示す。
- 参考スコア(独自算出の注目度): 3.4944387787356344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of finding the optimal value of n in the n-step
temporal difference (TD) learning algorithm. We find the optimal n by resorting
to a model-free optimization technique involving a one-simulation simultaneous
perturbation stochastic approximation (SPSA) based procedure that we adopt to
the discrete optimization setting by using a random projection approach. We
prove the convergence of our proposed algorithm, SDPSA, using a differential
inclusions approach and show that it finds the optimal value of n in n-step TD.
Through experiments, we show that the optimal value of n is achieved with SDPSA
for arbitrary initial values.
- Abstract(参考訳): 我々は,n段階時間差(TD)学習アルゴリズムにおいて,nの最適値を求める問題を考える。
ランダムなプロジェクションアプローチを用いて離散最適化設定に適用したSPSAに基づく一シミュレーション同時摂動確率近似(SPSA)に基づくモデルフリー最適化手法を用いて最適nを求める。
差分包摂法を用いて,提案アルゴリズムであるSDPSAの収束性を証明し,n段TDにおけるnの最適値を求めることを示す。
実験により, n の最適値は任意の初期値に対して sdpsa で達成されることを示した。
関連論文リスト
- Convergence of Expectation-Maximization Algorithm with Mixed-Integer Optimization [5.319361976450982]
本稿では,特定の種類のEMアルゴリズムの収束を保証する一連の条件を紹介する。
本研究では,混合整数非線形最適化問題の解法として,反復アルゴリズムの新しい解析手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T11:42:46Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - An Algebraically Converging Stochastic Gradient Descent Algorithm for
Global Optimization [14.336473214524663]
アルゴリズムの主要な構成要素は、目的関数の値に基づくランダム性である。
アルゴリズムの収束を代数学で証明し、パラメータ空間でチューニングする。
アルゴリズムの効率性とロバスト性を示す数値的な例をいくつか提示する。
論文 参考訳(メタデータ) (2022-04-12T16:27:49Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Sequential Subspace Search for Functional Bayesian Optimization
Incorporating Experimenter Intuition [63.011641517977644]
本アルゴリズムは,実験者のガウス過程から引き出された一組の引き数で区切られた関数空間の有限次元ランダム部分空間列を生成する。
標準ベイズ最適化は各部分空間に適用され、次の部分空間の出発点(オリジン)として用いられる最良の解である。
シミュレーションおよび実世界の実験,すなわちブラインド関数マッチング,アルミニウム合金の最適析出強化関数の探索,深層ネットワークの学習速度スケジュール最適化において,本アルゴリズムを検証した。
論文 参考訳(メタデータ) (2020-09-08T06:54:11Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。