論文の概要: Off-Policy Average Reward Actor-Critic with Deterministic Policy Search
- arxiv url: http://arxiv.org/abs/2305.12239v1
- Date: Sat, 20 May 2023 17:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:39:31.558488
- Title: Off-Policy Average Reward Actor-Critic with Deterministic Policy Search
- Title(参考訳): 決定論的政策探索を用いたオフポリケージアワードアクター批判
- Authors: Naman Saxena, Subhojyoti Khastigir, Shishir Kolathaya, Shalabh
Bhatnagar
- Abstract要約: 我々は、平均報酬性能基準に対して、オン・ポリティとオフ・ポリティズム的政策勾配定理の両方を提示する。
また,ARO-DDPG(Average Reward Off-Policy Deep Deterministic Policy Gradient)アルゴリズムを提案する。
提案したARO-DDPGの平均報酬性能を比較し,MuJoCo環境上での最先端の平均報酬評価アルゴリズムと比較した。
- 参考スコア(独自算出の注目度): 3.551625533648956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The average reward criterion is relatively less studied as most existing
works in the Reinforcement Learning literature consider the discounted reward
criterion. There are few recent works that present on-policy average reward
actor-critic algorithms, but average reward off-policy actor-critic is
relatively less explored. In this work, we present both on-policy and
off-policy deterministic policy gradient theorems for the average reward
performance criterion. Using these theorems, we also present an Average Reward
Off-Policy Deep Deterministic Policy Gradient (ARO-DDPG) Algorithm. We first
show asymptotic convergence analysis using the ODE-based method. Subsequently,
we provide a finite time analysis of the resulting stochastic approximation
scheme with linear function approximator and obtain an $\epsilon$-optimal
stationary policy with a sample complexity of $\Omega(\epsilon^{-2.5})$. We
compare the average reward performance of our proposed ARO-DDPG algorithm and
observe better empirical performance compared to state-of-the-art on-policy
average reward actor-critic algorithms over MuJoCo-based environments.
- Abstract(参考訳): 平均報酬基準は、強化学習文献の多くの既存の著作が割引報酬基準を考えるため、比較的研究されていない。
近年では、政治上の平均的報酬・犯罪的アルゴリズムを示す作品はほとんどないが、政治以外の平均的な報酬・犯罪的報酬は比較的少ない。
本研究は, 平均報酬性能基準に対する実効性および非実効性決定論的政策勾配定理について述べる。
また,これらの定理を用いて,ARO-DDPG(Average Reward Off-Policy Deep Deterministic Policy Gradient)アルゴリズムを提案する。
まず, ODE を用いた漸近収束解析を行った。
その後,線形関数近似子を用いた確率的近似スキームの有限時間解析を行い,サンプル複雑性が$\omega(\epsilon^{-2.5})$の1つとして$\epsilon$-optimal stationary policyを得る。
提案したARO-DDPGアルゴリズムの平均報酬性能を比較し,MuJoCo環境上での最先端平均報酬評価アルゴリズムと比較した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Performance Bounds for Policy-Based Average Reward Reinforcement
Learning Algorithms [11.013390624382259]
多くのポリシーベース強化学習(RL)アルゴリズムは、近似ポリシー反復(PI)のインスタンス化と見なすことができる。
平均報酬目標が有意義なパフォーマンス指標であるアプリケーションでは、割引された報酬の定式化がしばしば使用され、割引係数は1,$近くで、期待される地平線を非常に大きくするのと同等である。
本稿では、この開放的な問題を、平均逆 MDP に対する最初の有限時間誤差境界を求めることで解決し、政策評価や政策改善の誤差がゼロになるにつれて、その誤差が極限でゼロとなることを示す。
論文 参考訳(メタデータ) (2023-02-02T22:37:47Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - On-Policy Deep Reinforcement Learning for the Average-Reward Criterion [9.343119070691735]
平均回帰型政治強化学習(RL)のための理論とアルゴリズムを開発する。
特に,Average-Reward TRPO (ATRPO) が平均再帰基準に適応し,最も困難な MuJuCo 環境において TRPO を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-14T12:12:09Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Batch Policy Learning in Average Reward Markov Decision Processes [3.9023554886892438]
モバイル健康アプリケーションに動機づけられた我々は、長期的な平均報酬を最大化する政策を学ぶことに集中する。
パラメータ化されたポリシークラスで最適ポリシーを計算する最適化アルゴリズムを開発した。
推定ポリシのパフォーマンスは、ポリシークラスにおける最適平均報酬と推定ポリシの平均報酬との差によって測定される。
論文 参考訳(メタデータ) (2020-07-23T03:28:14Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。