Fugu-MT 論文翻訳(概要): Temporal Difference Learning as Gradient Splitting

論文の概要: Temporal Difference Learning as Gradient Splitting

arxiv url: http://arxiv.org/abs/2010.14657v1
Date: Tue, 27 Oct 2020 22:50:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-02 11:30:34.152317
Title: Temporal Difference Learning as Gradient Splitting
Title（参考訳）: 勾配分割による時間差学習
Authors: Rui Liu and Alex Olshevsky
Abstract要約: 勾配降下の収束証明は時間差学習にほぼ冗長に適用可能であることを示す。値関数の平均を推定するTD学習における小さな変化は、1/(1-ガンマ)$1の乗算項のみを無作為に無視する収束時間を持つことを示す。
参考スコア（独自算出の注目度）: 15.321579527891457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal difference learning with linear function approximation is a popular method to obtain a low-dimensional approximation of the value function of a policy in a Markov Decision Process. We give a new interpretation of this method in terms of a splitting of the gradient of an appropriately chosen function. As a consequence of this interpretation, convergence proofs for gradient descent can be applied almost verbatim to temporal difference learning. Beyond giving a new, fuller explanation of why temporal difference works, our interpretation also yields improved convergence times. We consider the setting with $1/\sqrt{T}$ step-size, where previous comparable finite-time convergence time bounds for temporal difference learning had the multiplicative factor $1/(1-\gamma)$ in front of the bound, with $\gamma$ being the discount factor. We show that a minor variation on TD learning which estimates the mean of the value function separately has a convergence time where $1/(1-\gamma)$ only multiplies an asymptotically negligible term.
Abstract（参考訳）: 線形関数近似を用いた時間差学習は、マルコフ決定過程におけるポリシーの価値関数の低次元近似を求める一般的な方法である。本手法は, 適切に選択された関数の勾配の分割という観点から, 新たな解釈を与える。この解釈の結果として、勾配降下の収束証明は時間差学習にほぼ冗長に適用できる。時間差がなぜ機能するのかという、より完全な説明に加えて、我々の解釈は収束時間も改善する。 1/\sqrt{t}$ step-size では、時間差学習における従来の同等の有限時間収束時間境界が、境界の前に1/(1-\gamma)$の乗算係数を持ち、$\gamma$が値引き係数である。値関数の平均を推定するTD学習における小さな変化は、1/(1-\gamma)$が漸近的に無視可能な項を乗算する収束時間を持つことを示す。

関連論文リスト

Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP [1.0923877073891446]
割引報酬マルコフ決定プロセスにおける分散政策評価の問題点を考察する。本稿では,線形関数近似(LFA)を用いた時間差分型学習アルゴリズムについて述べる。平均二乗の意味で(i) を保持する有限標本境界と、(ii) テールイテレート平均化を用いる場合の高い確率を導出する。
論文参考訳（メタデータ） (2024-06-12T05:49:53Z)
Second-order Information Promotes Mini-Batch Robustness in Variance-Reduced Gradients [0.196629787330046]
目的関数の部分的な2次情報を組み込むことで、分散還元勾配法のミニバッチサイズに対するロバスト性を劇的に向上させることができることを示す。本稿では,この現象をプロトタイプNewton(textttMb-SVRN$)アルゴリズムで示す。
論文参考訳（メタデータ） (2024-04-23T05:45:52Z)
Statistical Efficiency of Distributional Temporal Difference Learning [24.03281329962804]
我々は、分布時間差分学習(CTD)と量子時間差分学習(QTD)の有限サンプル性能を解析する。 $gamma$-discounted infinite-horizon decision process に対して、NTD では $tildeOleft(frac1varepsilon2p (1-gamma)2pright)$ が、高い確率で $varepsilon$-optimal estimator を達成するために必要であることを示す。我々はヒルベルト空間における新しいフリードマンの不等式を確立し、これは独立な関心事である。
論文参考訳（メタデータ） (2024-03-09T06:19:53Z)
Distributed TD(0) with Almost No Communication [15.321579527891457]
線形関数近似を用いた時間差分学習の非漸近解析法を提案する。分散過程の収束時間がTD(0)の収束時間よりもN$の係数である線形時間高速化現象のバージョンを実証する。
論文参考訳（メタデータ） (2023-05-25T17:00:46Z)
Sharper Convergence Guarantees for Asynchronous SGD for Distributed and Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文参考訳（メタデータ） (2022-06-16T17:10:57Z)
Momentum-Based Policy Gradient with Second-Order Information [40.51117836892182]
本稿では,2次情報を勾配降下に組み込んだSHARP法を提案する。従来の研究と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリングを必要としない。提案手法が様々な制御課題に対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。
論文参考訳（メタデータ） (2022-05-17T11:56:50Z)
Scalable Frank-Wolfe on Generalized Self-concordant Functions via Simple Steps [66.88729048402082]
一般化自己一致は、多くの学習問題の目的関数に存在する重要な特性である。検討対象の領域が一様凸あるいは多面体である場合など,様々な症例に対する収束率の改善を示す。
論文参考訳（メタデータ） (2021-05-28T15:26:36Z)
Parameter-free Gradient Temporal Difference Learning [3.553493344868414]
強化学習のためのグラデーションに基づく時間差アルゴリズムを開発。当社のアルゴリズムは線形時間で動作し、GTD2のものを$log$ファクタまで一致させる高確率収束を保証します。本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を保ちながら,チューニングを一切行わないことを示す。
論文参考訳（メタデータ） (2021-05-10T06:07:05Z)
Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文参考訳（メタデータ） (2021-02-17T18:54:08Z)
Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文参考訳（メタデータ） (2021-01-31T16:17:56Z)
Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文参考訳（メタデータ） (2020-09-29T18:48:21Z)
On the Almost Sure Convergence of Stochastic Gradient Descent in Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文参考訳（メタデータ） (2020-06-19T14:11:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。