論文の概要: Finite-Sample Analysis of Proximal Gradient TD Algorithms
- arxiv url: http://arxiv.org/abs/2006.14364v2
- Date: Fri, 3 Jul 2020 14:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 21:14:14.973994
- Title: Finite-Sample Analysis of Proximal Gradient TD Algorithms
- Title(参考訳): 近似勾配TDアルゴリズムの有限サンプル解析
- Authors: Bo Liu, Ji Liu, Mohammad Ghavamzadeh, Sridhar Mahadevan, Marek Petrik
- Abstract要約: アルゴリズムの勾配時間差分学習(GTD)ファミリーの収束速度を解析する。
また、GTD2とGTD2-MPという2つの修正アルゴリズムも提案されている。
理論解析の結果,GTDファミリーのアルゴリズムは,非政治的な学習シナリオにおける既存のLSTD手法と同等であることがわかった。
- 参考スコア(独自算出の注目度): 43.035055641190105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we analyze the convergence rate of the gradient temporal
difference learning (GTD) family of algorithms. Previous analyses of this class
of algorithms use ODE techniques to prove asymptotic convergence, and to the
best of our knowledge, no finite-sample analysis has been done. Moreover, there
has been not much work on finite-sample analysis for convergent off-policy
reinforcement learning algorithms. In this paper, we formulate GTD methods as
stochastic gradient algorithms w.r.t.~a primal-dual saddle-point objective
function, and then conduct a saddle-point error analysis to obtain
finite-sample bounds on their performance. Two revised algorithms are also
proposed, namely projected GTD2 and GTD2-MP, which offer improved convergence
guarantees and acceleration, respectively. The results of our theoretical
analysis show that the GTD family of algorithms are indeed comparable to the
existing LSTD methods in off-policy learning scenarios.
- Abstract(参考訳): 本稿では,勾配時間差分学習(GTD)系のアルゴリズムの収束速度を解析する。
このタイプのアルゴリズムの以前の分析は、漸近収束を証明するためにODE技術を使用しており、私たちの知識の限りでは、有限サンプル解析は行われていない。
さらに、収束オフポリシー強化学習アルゴリズムの有限サンプル解析については、あまり研究されていない。
本稿では,GTD法を確率勾配アルゴリズム(w.r.t.~)として定式化し,その性能を有限サンプル境界とするサドル点誤差解析を行う。
GTD2とGTD2-MPという2つの改良されたアルゴリズムも提案されている。
理論解析の結果,GTDファミリーのアルゴリズムは,非政治的な学習シナリオにおける既存のLSTD手法と同等であることがわかった。
関連論文リスト
- Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation [5.152147416671501]
本稿では,線形関数近似,オフポリシー学習,ブートストラッピングを特徴とする多段階TD学習アルゴリズムを解析する。
2つのnステップのTD学習アルゴリズムが提案され分析され、このアルゴリズムは勾配と制御理論のモデルなし強化学習とみなすことができる。
論文 参考訳(メタデータ) (2024-02-24T10:42:50Z) - Gradient Descent Temporal Difference-difference Learning [0.0]
GTDアルゴリズムであるGTD2を改善するために、降下時間差分差分法(グラディエントDD)学習を提案する。
本研究では,ランダムウォークタスク,ボイアンチェインタスク,ベアードのオフ・ポリチック・カウンターアンプを実証的に検討した。
論文 参考訳(メタデータ) (2022-09-10T08:55:20Z) - First-Order Algorithms for Nonlinear Generalized Nash Equilibrium
Problems [88.58409977434269]
非線形一般化ナッシュ均衡問題(NGNEP)における平衡計算の問題を考える。
我々の貢献は、2次ペナルティ法と拡張ラグランジアン法に基づく2つの単純な一階アルゴリズムフレームワークを提供することである。
これらのアルゴリズムに対する漸近的理論的保証を提供する。
論文 参考訳(メタデータ) (2022-04-07T00:11:05Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint [8.087699764574788]
政治外の強化学習コンテキストにおける制御問題の解法として,2つのポリシー勾配アルゴリズムを提案する。
どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。
論文 参考訳(メタデータ) (2021-01-06T17:06:42Z) - Sample Complexity Bounds for Two Timescale Value-based Reinforcement
Learning Algorithms [65.09383385484007]
2つの時間スケール近似(SA)は、値に基づく強化学習アルゴリズムで広く使われている。
本稿では,2つの時間スケール線形および非線形TDCとGreedy-GQアルゴリズムの漸近収束率について検討する。
論文 参考訳(メタデータ) (2020-11-10T11:36:30Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z) - Finite-sample Analysis of Greedy-GQ with Linear Function Approximation
under Markovian Noise [23.62008807533706]
本稿では,Greedy-GQアルゴリズムの最初の有限サンプル解析法を提案する。
本稿では,2つの時間スケール強化学習アルゴリズムの有限サンプル解析を拡張した。
論文 参考訳(メタデータ) (2020-05-20T16:35:19Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。