論文の概要: Gradient Temporal Difference with Momentum: Stability and Convergence
- arxiv url: http://arxiv.org/abs/2111.11004v1
- Date: Mon, 22 Nov 2021 06:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 16:57:46.355479
- Title: Gradient Temporal Difference with Momentum: Stability and Convergence
- Title(参考訳): モーメントムの経時的変化:安定性と収束性
- Authors: Rohan Deb, Shalabh Bhatnagar
- Abstract要約: 重ボールグラディエントTDアルゴリズムを3つのステップサイズで分割する。
重ボールグラディエントTDアルゴリズムが3次元SA解析を用いて収束していることを証明する。
- 参考スコア(独自算出の注目度): 4.780898954294901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient temporal difference (Gradient TD) algorithms are a popular class of
stochastic approximation (SA) algorithms used for policy evaluation in
reinforcement learning. Here, we consider Gradient TD algorithms with an
additional heavy ball momentum term and provide choice of step size and
momentum parameter that ensures almost sure convergence of these algorithms
asymptotically. In doing so, we decompose the heavy ball Gradient TD iterates
into three separate iterates with different step sizes. We first analyze these
iterates under one-timescale SA setting using results from current literature.
However, the one-timescale case is restrictive and a more general analysis can
be provided by looking at a three-timescale decomposition of the iterates. In
the process, we provide the first conditions for stability and convergence of
general three-timescale SA. We then prove that the heavy ball Gradient TD
algorithm is convergent using our three-timescale SA analysis. Finally, we
evaluate these algorithms on standard RL problems and report improvement in
performance over the vanilla algorithms.
- Abstract(参考訳): 勾配時間差(Gradient temporal difference, Gradient TD)アルゴリズムは、強化学習におけるポリシー評価に用いられる確率近似(SA)アルゴリズムの一般的なクラスである。
ここでは,重球運動量項を付加した勾配tdアルゴリズムを検討し,これらのアルゴリズムが漸近的に収束することを保証するステップサイズと運動量パラメータの選択を提供する。
その際,重球勾配tdイテレートを,異なるステップサイズで3つの別々のイテレートに分解する。
まず,現在の文献から得られた結果を用いて,ワンタイムスケールsa環境下での反復分析を行った。
しかし、1時間スケールのケースは制限的であり、3時間スケールのイテレート分解を見ることでより一般的な分析が可能である。
この過程において、一般三段階SAの安定性と収束性の最初の条件を提供する。
次に,重球勾配tdアルゴリズムが3回のsa解析により収束することを示す。
最後に,これらのアルゴリズムを標準RL問題に対して評価し,バニラアルゴリズムの性能改善を報告する。
関連論文リスト
- Tight Finite Time Bounds of Two-Time-Scale Linear Stochastic
Approximation with Markovian Noise [9.82187447690297]
マルコフ雑音を伴う線形2時間スケール近似 (SA) の反復に対して, 厳密な収束を特徴付ける。
この結果は,Polyak平均化を用いたTD学習,GTD,GTD2など,様々なRLアルゴリズムの収束挙動の確立に応用できる。
論文 参考訳(メタデータ) (2023-12-31T01:30:14Z) - Variance reduction techniques for stochastic proximal point algorithms [5.374800961359305]
そこで本研究では,近点アルゴリズムにおける分散低減手法の統一化研究を提案する。
我々は,SVRG,SAGA,およびそれらの変種の近位バージョンを提供するために特定可能な,汎用的近位アルゴリズムを提案する。
本実験は, 勾配法よりも近似分散還元法の利点を実証する。
論文 参考訳(メタデータ) (2023-08-18T05:11:50Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Sample Complexity Bounds for Two Timescale Value-based Reinforcement
Learning Algorithms [65.09383385484007]
2つの時間スケール近似(SA)は、値に基づく強化学習アルゴリズムで広く使われている。
本稿では,2つの時間スケール線形および非線形TDCとGreedy-GQアルゴリズムの漸近収束率について検討する。
論文 参考訳(メタデータ) (2020-11-10T11:36:30Z) - Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence
Analysis [27.679514676804057]
オフ・ポリシー・セッティングにおける2つの時間スケールTDCアルゴリズムの分散化手法を開発した。
実験により,提案した分散還元型TDCは,従来のTDCと分散還元型TDよりも収束誤差が小さいことを示した。
論文 参考訳(メタデータ) (2020-10-26T01:33:05Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Multi-kernel Passive Stochastic Gradient Algorithms and Transfer
Learning [21.796874356469644]
勾配アルゴリズムはコスト関数のノイズ勾配が評価される位置を制御できない。
このアルゴリズムは高次元問題において著しく優れており、分散還元を取り入れている。
論文 参考訳(メタデータ) (2020-08-23T11:55:19Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。