Fugu-MT 論文翻訳(概要): Proximal Gradient Temporal Difference Learning: Stable Reinforcement Learning with Polynomial Sample Complexity

論文の概要: Proximal Gradient Temporal Difference Learning: Stable Reinforcement Learning with Polynomial Sample Complexity

arxiv url: http://arxiv.org/abs/2006.03976v1
Date: Sat, 6 Jun 2020 21:04:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 21:14:57.983021
Title: Proximal Gradient Temporal Difference Learning: Stable Reinforcement Learning with Polynomial Sample Complexity
Title（参考訳）: 次数次時間差学習 : 多項式複素数を用いた安定強化学習
Authors: Bo Liu, Ian Gemp, Mohammad Ghavamzadeh, Ji Liu, Sridhar Mahadevan, Marek Petrik
Abstract要約: 本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
参考スコア（独自算出の注目度）: 40.73281056650241
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce proximal gradient temporal difference learning, which provides a principled way of designing and analyzing true stochastic gradient temporal difference learning algorithms. We show how gradient TD (GTD) reinforcement learning methods can be formally derived, not by starting from their original objective functions, as previously attempted, but rather from a primal-dual saddle-point objective function. We also conduct a saddle-point error analysis to obtain finite-sample bounds on their performance. Previous analyses of this class of algorithms use stochastic approximation techniques to prove asymptotic convergence, and do not provide any finite-sample analysis. We also propose an accelerated algorithm, called GTD2-MP, that uses proximal ``mirror maps'' to yield an improved convergence rate. The results of our theoretical analysis imply that the GTD family of algorithms are comparable and may indeed be preferred over existing least squares TD methods for off-policy learning, due to their linear complexity. We provide experimental results showing the improved performance of our accelerated gradient TD methods.
Abstract（参考訳）: 本稿では,真の確率的勾配時間差学習アルゴリズムを設計・解析するための原理的手法として,近位勾配時間差学習を提案する。本稿では, 従来の目的関数から始めるのではなく, 主目的関数から始めることによって, 勾配TD(GTD)強化学習法を公式に導出する方法を示す。また,サドルポイント誤差解析を行い,その性能について有限サンプル境界を求める。このクラスのアルゴリズムの以前の分析では、漸近収束を証明するために確率近似技術を使用しており、有限サンプル解析は提供していない。 GTD2-MPと呼ばれる高速化されたアルゴリズムも提案する。理論解析の結果,GTDのアルゴリズム群は,線形複雑性のため,既存の最小2乗のTD法よりも好まれる可能性が示唆された。高速化された勾配TD法の性能向上を示す実験結果を得た。

関連論文リスト

Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Variance reduction techniques for stochastic proximal point algorithms [5.374800961359305]
そこで本研究では,近点アルゴリズムにおける分散低減手法の統一化研究を提案する。我々は,SVRG,SAGA,およびそれらの変種の近位バージョンを提供するために特定可能な,汎用的近位アルゴリズムを提案する。本実験は, 勾配法よりも近似分散還元法の利点を実証する。
論文参考訳（メタデータ） (2023-08-18T05:11:50Z)
Gradient Descent Temporal Difference-difference Learning [0.0]
GTDアルゴリズムであるGTD2を改善するために、降下時間差分差分法(グラディエントDD)学習を提案する。本研究では,ランダムウォークタスク,ボイアンチェインタスク,ベアードのオフ・ポリチック・カウンターアンプを実証的に検討した。
論文参考訳（メタデータ） (2022-09-10T08:55:20Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文参考訳（メタデータ） (2021-05-13T04:23:07Z)
Simple and optimal methods for stochastic variational inequalities, II: Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文参考訳（メタデータ） (2020-11-15T04:05:22Z)
A Unified Analysis of First-Order Methods for Smooth Games via Integral Quadratic Constraints [10.578409461429626]
本研究では、滑らかで強可変なゲームやイテレーションのための一階法に積分二次的制約理論を適用する。我々は、負の運動量法(NM)に対して、既知の下界と一致する複雑性$mathcalO(kappa1.5)$で、初めて大域収束率を与える。一段階のメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば,高速化は不可能であることを示す。
論文参考訳（メタデータ） (2020-09-23T20:02:00Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
Finite-Sample Analysis of Proximal Gradient TD Algorithms [43.035055641190105]
アルゴリズムの勾配時間差分学習(GTD)ファミリーの収束速度を解析する。また、GTD2とGTD2-MPという2つの修正アルゴリズムも提案されている。理論解析の結果,GTDファミリーのアルゴリズムは,非政治的な学習シナリオにおける既存のLSTD手法と同等であることがわかった。
論文参考訳（メタデータ） (2020-06-06T20:16:25Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。