Fugu-MT 論文翻訳(概要): n-Step Temporal Difference Learning with Optimal n

論文の概要: n-Step Temporal Difference Learning with Optimal n

arxiv url: http://arxiv.org/abs/2303.07068v1
Date: Mon, 13 Mar 2023 12:44:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 15:08:58.417886
Title: n-Step Temporal Difference Learning with Optimal n
Title（参考訳）: 最適nによるnステップ時間差学習
Authors: Lakshmi Mandal and Shalabh Bhatnagar
Abstract要約: 同時摂動近似のモデルフリー最適化手法を用いて最適nを求める。提案アルゴリズムであるSDPSAの収束性を証明し,n段TDにおけるnの最適値を求める。
参考スコア（独自算出の注目度）: 3.4944387787356344
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of finding the optimal value of n in the n-step temporal difference (TD) algorithm. We find the optimal n by resorting to the model-free optimization technique of simultaneous perturbation stochastic approximation (SPSA). We adopt a one-simulation SPSA procedure that is originally for continuous optimization to the discrete optimization framework but incorporates a cyclic perturbation sequence. We prove the convergence of our proposed algorithm, SDPSA, and show that it finds the optimal value of n in n-step TD. Through experiments, we show that the optimal value of n is achieved with SDPSA for any arbitrary initial value of the same.
Abstract（参考訳）: 我々は,n-step temporal difference (TD) アルゴリズムにおいて,n の最適値を求める問題を考える。我々は,同時摂動確率近似 (spsa) のモデルフリー最適化手法を用いて最適な n を求める。我々は, 離散最適化フレームワークへの連続最適化を目的として, 巡回摂動列を組み込んだ1シミュレーションのspsa手法を採用する。提案アルゴリズムであるSDPSAの収束性を証明し,n段TDにおけるnの最適値を求める。実験により、n の最適値は任意の任意の初期値に対して SDPSA を用いて達成されることを示す。

関連論文リスト

Convergence of Expectation-Maximization Algorithm with Mixed-Integer Optimization [5.319361976450982]
本稿では,特定の種類のEMアルゴリズムの収束を保証する一連の条件を紹介する。本研究では,混合整数非線形最適化問題の解法として,反復アルゴリズムの新しい解析手法を提案する。
論文参考訳（メタデータ） (2024-01-31T11:42:46Z)
Stochastic Optimization for Non-convex Problem with Inexact Hessian Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。 TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文参考訳（メタデータ） (2023-10-18T10:29:58Z)
An Algebraically Converging Stochastic Gradient Descent Algorithm for Global Optimization [14.336473214524663]
アルゴリズムの主要な構成要素は、目的関数の値に基づくランダム性である。アルゴリズムの収束を代数学で証明し、パラメータ空間でチューニングする。アルゴリズムの効率性とロバスト性を示す数値的な例をいくつか提示する。
論文参考訳（メタデータ） (2022-04-12T16:27:49Z)
Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。 Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文参考訳（メタデータ） (2020-10-15T18:09:48Z)
Sequential Subspace Search for Functional Bayesian Optimization Incorporating Experimenter Intuition [63.011641517977644]
本アルゴリズムは,実験者のガウス過程から引き出された一組の引き数で区切られた関数空間の有限次元ランダム部分空間列を生成する。標準ベイズ最適化は各部分空間に適用され、次の部分空間の出発点(オリジン)として用いられる最良の解である。シミュレーションおよび実世界の実験,すなわちブラインド関数マッチング,アルミニウム合金の最適析出強化関数の探索,深層ネットワークの学習速度スケジュール最適化において,本アルゴリズムを検証した。
論文参考訳（メタデータ） (2020-09-08T06:54:11Z)
ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文参考訳（メタデータ） (2020-08-28T14:46:56Z)
Exploiting Higher Order Smoothness in Derivative-free Optimization and Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。予測勾配降下アルゴリズムのランダム化近似を考察する。その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文参考訳（メタデータ） (2020-06-14T10:42:23Z)
Convergence of adaptive algorithms for weakly convex constrained optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文参考訳（メタデータ） (2020-06-11T17:43:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。