論文の概要: Schedule Based Temporal Difference Algorithms
- arxiv url: http://arxiv.org/abs/2111.11768v1
- Date: Tue, 23 Nov 2021 10:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 15:17:47.301729
- Title: Schedule Based Temporal Difference Algorithms
- Title(参考訳): スケジュールに基づく時間差アルゴリズム
- Authors: Rohan Deb, Meet Gandhi, Shalabh Bhatnagar
- Abstract要約: TD($lambda$) アルゴリズムをパラメータ $lambda$ が時間ステップによって変化する場合に一般化する $lambda$-schedule プロシージャを提示する。
本稿では,TD($lambda$)-scheduleとGTD($lambda$)-scheduleとTDC($lambda$)-scheduleの2つの非政治アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.6007829804814673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning the value function of a given policy from data samples is an
important problem in Reinforcement Learning. TD($\lambda$) is a popular class
of algorithms to solve this problem. However, the weights assigned to different
$n$-step returns in TD($\lambda$), controlled by the parameter $\lambda$,
decrease exponentially with increasing $n$. In this paper, we present a
$\lambda$-schedule procedure that generalizes the TD($\lambda$) algorithm to
the case when the parameter $\lambda$ could vary with time-step. This allows
flexibility in weight assignment, i.e., the user can specify the weights
assigned to different $n$-step returns by choosing a sequence $\{\lambda_t\}_{t
\geq 1}$. Based on this procedure, we propose an on-policy algorithm -
TD($\lambda$)-schedule, and two off-policy algorithms - GTD($\lambda$)-schedule
and TDC($\lambda$)-schedule, respectively. We provide proofs of almost sure
convergence for all three algorithms under a general Markov noise framework.
- Abstract(参考訳): データサンプルから与えられたポリシーの価値関数を学ぶことは強化学習において重要な問題である。
TD($\lambda$)はこの問題を解決するアルゴリズムの一般的なクラスである。
しかし、パラメータ$\lambda$によって制御されるTD($\lambda$)の異なる$n$-stepに割り当てられた重みは、$n$の増加とともに指数関数的に減少する。
本稿では,TD($\lambda$)アルゴリズムをパラメータ$\lambda$が時間ステップによって変化する場合に一般化する,$\lambda$-scheduleプロシージャを提案する。
これにより、重み割り当ての柔軟性、すなわち、異なる$n$-stepリターンに割り当てられる重みを$\{\lambda_t\}_{t \geq 1}$を選択することで指定することができる。
本手法では, オン・ポリシー・アルゴリズムTD($\lambda$)-scheduleと, それぞれGTD($\lambda$)-scheduleとTDC($\lambda$)-scheduleの2つのオフ・ポリシー・アルゴリズムを提案する。
我々は、一般的なマルコフ雑音枠組みの下で3つのアルゴリズムのほぼ確実に収束する証明を提供する。
関連論文リスト
- SGD with memory: fundamental properties and stochastic acceleration [15.25021403154845]
非確率設定では、損失収束$L_tsim C_Lt-xiの最適指数$xi$は、平滑なGDの倍である。
メモリ1のアルゴリズムでは、安定性を維持しながら、任意に$C_L$を小さくすることができる。
論文 参考訳(メタデータ) (2024-10-05T16:57:40Z) - Truncated Variance Reduced Value Iteration [23.282578280033622]
我々は、割引マルコフ決定プロセスにおいて、$epsilon$-optimal Policyを計算するための高速なランダム化アルゴリズムを提供する。
この結果から,モデルフリー法とモデルベース法とでは,サンプル・複雑さのギャップを埋めることができた。
論文 参考訳(メタデータ) (2024-05-21T17:28:06Z) - Online Robust Mean Estimation [37.746091744197656]
オンライン環境における高次元ロバスト平均推定問題について検討する。
このモデルでは、オンラインロバスト平均推定の主な2つの結果が証明されている。
論文 参考訳(メタデータ) (2023-10-24T15:28:43Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Faster Sampling from Log-Concave Distributions over Polytopes via a
Soft-Threshold Dikin Walk [28.431572772564518]
我々は、$d$-dimensional log-concave distribution $pi(theta) propto e-f(theta)$からポリトープ$K$に制約された$m$不等式をサンプリングする問題を考える。
我々の主な成果は、少なくとも$O((md + d L2 R2) times MDomega-1) log(fracwdelta)$ arithmetic operation to sample from $pi$ の "soft-warm' variant of the Dikin walk Markov chain" である。
論文 参考訳(メタデータ) (2022-06-19T11:33:07Z) - Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits [99.86860277006318]
本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。
Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。
この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
論文 参考訳(メタデータ) (2022-02-12T21:55:44Z) - Logarithmic Regret from Sublinear Hints [76.87432703516942]
自然クエリモデルにより,アルゴリズムが$O(log T)$ regretsを$O(sqrtT)$ hintsで得ることを示す。
また、$o(sqrtT)$ hintsは$Omega(sqrtT)$ regretより保証できないことも示しています。
論文 参考訳(メタデータ) (2021-11-09T16:50:18Z) - Clustering Mixture Models in Almost-Linear Time via List-Decodable Mean
Estimation [58.24280149662003]
本稿では,データセットの大部分を敵が破壊できるリストデコタブル平均推定の問題について検討する。
我々は、ほぼ最適な統計的保証を達成するために、リストデコダブル平均推定のための新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-16T03:34:14Z) - Learning a Latent Simplex in Input-Sparsity Time [58.30321592603066]
我々は、$AinmathbbRdtimes n$へのアクセスを考えると、潜入$k$-vertex simplex $KsubsetmathbbRdtimes n$を学習する問題を考える。
実行時間における$k$への依存は、トップ$k$特異値の質量が$a$であるという自然な仮定から不要であることを示す。
論文 参考訳(メタデータ) (2021-05-17T16:40:48Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。