論文の概要: n-Step Temporal Difference Learning with Optimal n
- arxiv url: http://arxiv.org/abs/2303.07068v1
- Date: Mon, 13 Mar 2023 12:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 15:08:58.417886
- Title: n-Step Temporal Difference Learning with Optimal n
- Title(参考訳): 最適nによるnステップ時間差学習
- Authors: Lakshmi Mandal and Shalabh Bhatnagar
- Abstract要約: 同時摂動近似のモデルフリー最適化手法を用いて最適nを求める。
提案アルゴリズムであるSDPSAの収束性を証明し,n段TDにおけるnの最適値を求める。
- 参考スコア(独自算出の注目度): 3.4944387787356344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of finding the optimal value of n in the n-step
temporal difference (TD) algorithm. We find the optimal n by resorting to the
model-free optimization technique of simultaneous perturbation stochastic
approximation (SPSA). We adopt a one-simulation SPSA procedure that is
originally for continuous optimization to the discrete optimization framework
but incorporates a cyclic perturbation sequence. We prove the convergence of
our proposed algorithm, SDPSA, and show that it finds the optimal value of n in
n-step TD. Through experiments, we show that the optimal value of n is achieved
with SDPSA for any arbitrary initial value of the same.
- Abstract(参考訳): 我々は,n-step temporal difference (TD) アルゴリズムにおいて,n の最適値を求める問題を考える。
我々は,同時摂動確率近似 (spsa) のモデルフリー最適化手法を用いて最適な n を求める。
我々は, 離散最適化フレームワークへの連続最適化を目的として, 巡回摂動列を組み込んだ1シミュレーションのspsa手法を採用する。
提案アルゴリズムであるSDPSAの収束性を証明し,n段TDにおけるnの最適値を求める。
実験により、n の最適値は任意の任意の初期値に対して SDPSA を用いて達成されることを示す。
関連論文リスト
- An Adaptive Dimension Reduction Estimation Method for High-dimensional
Bayesian Optimization [6.79843988450982]
BOを高次元設定に拡張するための2段階最適化フレームワークを提案する。
私たちのアルゴリズムは、これらのステップを並列またはシーケンスで操作する柔軟性を提供します。
数値実験により,困難シナリオにおける本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-08T16:21:08Z) - B\'ezier Flow: a Surface-wise Gradient Descent Method for
Multi-objective Optimization [12.487037582320804]
確率近似学習(PAC)における最適化アルゴリズムの安定性を向上する。
勾配勾配勾配に基づく単目的最適化アルゴリズムから導かれる多目的最適化アルゴリズムはPAC安定であることを示す。
論文 参考訳(メタデータ) (2022-05-23T07:47:58Z) - Non-Convex Optimization with Certificates and Fast Rates Through Kernel
Sums of Squares [68.8204255655161]
非最適化近似問題を考える。
本稿では,最優先計算を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-11T09:37:04Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Stochastic Learning Approach to Binary Optimization for Optimal Design
of Experiments [0.0]
本稿では,偏微分方程式などの数学モデルによるベイズ逆問題に対する最適実験設計 (OED) のための二項最適化への新しいアプローチを提案する。
OEDユーティリティ関数、すなわち正規化された最適性勾配はベルヌーイ分布に対する期待の形で目的関数にキャストされる。
この目的を確率的最適化ルーチンを用いて最適な観測方針を求めることで解決する。
論文 参考訳(メタデータ) (2021-01-15T03:54:12Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Sequential Subspace Search for Functional Bayesian Optimization
Incorporating Experimenter Intuition [63.011641517977644]
本アルゴリズムは,実験者のガウス過程から引き出された一組の引き数で区切られた関数空間の有限次元ランダム部分空間列を生成する。
標準ベイズ最適化は各部分空間に適用され、次の部分空間の出発点(オリジン)として用いられる最良の解である。
シミュレーションおよび実世界の実験,すなわちブラインド関数マッチング,アルミニウム合金の最適析出強化関数の探索,深層ネットワークの学習速度スケジュール最適化において,本アルゴリズムを検証した。
論文 参考訳(メタデータ) (2020-09-08T06:54:11Z) - Iterative Surrogate Model Optimization (ISMO): An active learning
algorithm for PDE constrained optimization with deep neural networks [14.380314061763508]
反復代理モデル最適化(ISMO)と呼ばれる新しい能動学習アルゴリズムを提案する。
このアルゴリズムはディープニューラルネットワークに基づいており、その重要な特徴は、ディープニューラルネットワークと基礎となる標準最適化アルゴリズムの間のフィードバックループを通じて、トレーニングデータの反復的な選択である。
論文 参考訳(メタデータ) (2020-08-13T07:31:07Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - A Riemannian Primal-dual Algorithm Based on Proximal Operator and its
Application in Metric Learning [3.511851311025242]
一次変数と双対変数を反復的に最適化する原始双対アルゴリズムを提案する。
提案アルゴリズムの収束を証明し,その非漸近収束率を示す。
ファンドマネージメントにおける最適ファンド選択問題に関する予備実験の結果,有効性が確認された。
論文 参考訳(メタデータ) (2020-05-19T03:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。