論文の概要: On-Policy Deep Reinforcement Learning for the Average-Reward Criterion
- arxiv url: http://arxiv.org/abs/2106.07329v1
- Date: Mon, 14 Jun 2021 12:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 00:02:49.026333
- Title: On-Policy Deep Reinforcement Learning for the Average-Reward Criterion
- Title(参考訳): 平均回帰基準のためのオンポリシー深層強化学習
- Authors: Yiming Zhang, Keith W. Ross
- Abstract要約: 平均回帰型政治強化学習(RL)のための理論とアルゴリズムを開発する。
特に,Average-Reward TRPO (ATRPO) が平均再帰基準に適応し,最も困難な MuJuCo 環境において TRPO を著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 9.343119070691735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop theory and algorithms for average-reward on-policy Reinforcement
Learning (RL). We first consider bounding the difference of the long-term
average reward for two policies. We show that previous work based on the
discounted return (Schulman et al., 2015; Achiam et al., 2017) results in a
non-meaningful bound in the average-reward setting. By addressing the
average-reward criterion directly, we then derive a novel bound which depends
on the average divergence between the two policies and Kemeny's constant. Based
on this bound, we develop an iterative procedure which produces a sequence of
monotonically improved policies for the average reward criterion. This
iterative procedure can then be combined with classic DRL (Deep Reinforcement
Learning) methods, resulting in practical DRL algorithms that target the
long-run average reward criterion. In particular, we demonstrate that
Average-Reward TRPO (ATRPO), which adapts the on-policy TRPO algorithm to the
average-reward criterion, significantly outperforms TRPO in the most
challenging MuJuCo environments.
- Abstract(参考訳): 我々は, 平均回帰型強化学習(RL)の理論とアルゴリズムを開発した。
まず,2つの政策に対する長期平均報酬の差について考察する。
我々は、割引リターンに基づく以前の作業(Schulman et al., 2015; Achiam et al., 2017)が、平均リワード設定において意味のないバウンドをもたらすことを示す。
平均回帰基準を直接扱うことによって、我々は2つの政策とケメニー定数の間の平均的分岐に依存する新しい境界を導出する。
この境界に基づいて、平均報酬基準に対する単調に改善されたポリシーのシーケンスを生成する反復手順を開発する。
この反復的な手順を古典的なDRL(Deep Reinforcement Learning)手法と組み合わせることで、長期平均報酬基準をターゲットにした実用的なDRLアルゴリズムを実現する。
特に,Average-Reward TRPO (ATRPO) が平均再帰基準に適応し,最も困難な MuJuCo 環境において TRPO を著しく上回っていることを示す。
関連論文リスト
- WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Off-Policy Average Reward Actor-Critic with Deterministic Policy Search [3.551625533648956]
我々は、平均報酬性能基準に対して、オン・ポリティとオフ・ポリティズム的政策勾配定理の両方を提示する。
また,ARO-DDPG(Average Reward Off-Policy Deep Deterministic Policy Gradient)アルゴリズムを提案する。
提案したARO-DDPGの平均報酬性能を比較し,MuJoCo環境上での最先端の平均報酬評価アルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-05-20T17:13:06Z) - Performance Bounds for Policy-Based Average Reward Reinforcement
Learning Algorithms [11.013390624382259]
多くのポリシーベース強化学習(RL)アルゴリズムは、近似ポリシー反復(PI)のインスタンス化と見なすことができる。
平均報酬目標が有意義なパフォーマンス指標であるアプリケーションでは、割引された報酬の定式化がしばしば使用され、割引係数は1,$近くで、期待される地平線を非常に大きくするのと同等である。
本稿では、この開放的な問題を、平均逆 MDP に対する最初の有限時間誤差境界を求めることで解決し、政策評価や政策改善の誤差がゼロになるにつれて、その誤差が極限でゼロとなることを示す。
論文 参考訳(メタデータ) (2023-02-02T22:37:47Z) - Combing Policy Evaluation and Policy Improvement in a Unified
f-Divergence Framework [33.90259939664709]
学習方針とサンプリング方針のf分割について検討し、f-divergence Reinforcement Learning(FRL)と呼ばれる新しいDRLフレームワークを導出する。
FRL フレームワークは,1) f-divergence によって政策評価と政策改善プロセスを同時に導出すること,2) 値関数の過大評価問題を緩和すること,の2つの利点を実現する。
論文 参考訳(メタデータ) (2021-09-24T10:20:46Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Average-Reward Reinforcement Learning with Trust Region Methods [6.7838662053567615]
我々は、ディスカウントと平均基準を備えた統合信頼領域理論を策定する。
平均的基準により、信頼領域内での新たな性能は摂動解析(PA)理論によって導かれる。
本稿では,平均値制約(Average Value Constraint)と呼ばれる新しい手法を用いて,平均値推定法(APO)という実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T09:19:42Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。