論文の概要: Predictor-Corrector(PC) Temporal Difference(TD) Learning (PCTD)
- arxiv url: http://arxiv.org/abs/2104.09620v1
- Date: Thu, 15 Apr 2021 18:54:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 06:16:42.660053
- Title: Predictor-Corrector(PC) Temporal Difference(TD) Learning (PCTD)
- Title(参考訳): 予測-コレクタ(PC)時間差(TD)学習(PCTD)
- Authors: Caleb Bowyer
- Abstract要約: Predictor-Corrector Temporal difference (PCTD) は、私が離散時間 ODE の理論から翻訳時間 Reinforcement (RL) アルゴリズムと呼ぶものです。
私は新しいタイプのtd学習アルゴリズムを提案する。
近似されるパラメータは、ODEに対する解のTaylor Seriesエラーのマグニチュード低減の保証された順序を有する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using insight from numerical approximation of ODEs and the problem
formulation and solution methodology of TD learning through a Galerkin
relaxation, I propose a new class of TD learning algorithms. After applying the
improved numerical methods, the parameter being approximated has a guaranteed
order of magnitude reduction in the Taylor Series error of the solution to the
ODE for the parameter $\theta(t)$ that is used in constructing the linearly
parameterized value function. Predictor-Corrector Temporal Difference (PCTD) is
what I call the translated discrete time Reinforcement Learning(RL) algorithm
from the continuous time ODE using the theory of Stochastic Approximation(SA).
Both causal and non-causal implementations of the algorithm are provided, and
simulation results are listed for an infinite horizon task to compare the
original TD(0) algorithm against both versions of PCTD(0).
- Abstract(参考訳): 本稿では,ODEの数値近似とガレルキン緩和によるTD学習問題の定式化と解法から得られた知見を用いて,新しいTD学習アルゴリズムを提案する。
改良された数値法を適用した後、近似されるパラメータは、線形パラメータ化された値関数の構築に使用されるパラメータ$\theta(t)$のodeに対する解のtaylor級数誤差の最大値が保証される。
予測・コレクタ時間差(PCTD)とは、確率近似(Stochastic Approximation, SA)理論を用いて、連続時間ODEから変換された離散時間強化学習(RL)アルゴリズムである。
このアルゴリズムの因果的実装と非因果的実装の両方を提供し、シミュレーション結果は元のtd(0)アルゴリズムとpctd(0)の両バージョンを比較する無限ホライズンタスクとしてリストされる。
関連論文リスト
- Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Backstepping Temporal Difference Learning [3.5823366350053325]
政治外TD学習のための新しい収束アルゴリズムを提案する。
本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。
提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文 参考訳(メタデータ) (2023-02-20T10:06:49Z) - Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming [53.63469275932989]
制約付き非線形最適化問題のオンライン統計的推測を考察する。
これらの問題を解決するために、逐次二次計画法(StoSQP)を適用する。
論文 参考訳(メタデータ) (2022-05-27T00:34:03Z) - Temporal Difference Learning with Continuous Time and State in the
Stochastic Setting [0.0]
継続的政策評価の問題点を考察する。
これは、制御されていない連続時間ダイナミクスと報酬関数に関連付けられた値関数を観察を通して学習する。
論文 参考訳(メタデータ) (2022-02-16T10:10:53Z) - Policy Evaluation and Temporal-Difference Learning in Continuous Time
and Space: A Martingale Approach [1.776746672434207]
政策評価はプロセスのマーチンゲール状態を維持することと等価であることを示す。
本稿では,PEアルゴリズムの設計にマーチンゲール特性を用いた2つの手法を提案する。
論文 参考訳(メタデータ) (2021-08-15T03:37:17Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence
Analysis [27.679514676804057]
オフ・ポリシー・セッティングにおける2つの時間スケールTDCアルゴリズムの分散化手法を開発した。
実験により,提案した分散還元型TDCは,従来のTDCと分散還元型TDよりも収束誤差が小さいことを示した。
論文 参考訳(メタデータ) (2020-10-26T01:33:05Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Adaptive Temporal Difference Learning with Linear Function Approximation [29.741034258674205]
本稿では,強化学習における政策評価タスクにおける時間差(TD)学習アルゴリズムを再検討する。
線形関数近似を用いたTD(0)学習アルゴリズムの確率収束適応型射影多様体を開発した。
いくつかの標準強化学習タスクにおいて,AdaTD(0)とAdaTD($lambda$)の性能を評価する。
論文 参考訳(メタデータ) (2020-02-20T02:32:40Z) - Reanalysis of Variance Reduced Temporal Difference Learning [57.150444843282]
Korda と La が提案した分散還元型TD (VRTD) アルゴリズムは,マルコフサンプルを用いたオンラインTD学習に直接適用する。
我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。