論文の概要: Average-Reward Reinforcement Learning with Trust Region Methods
- arxiv url: http://arxiv.org/abs/2106.03442v1
- Date: Mon, 7 Jun 2021 09:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:38:56.989274
- Title: Average-Reward Reinforcement Learning with Trust Region Methods
- Title(参考訳): 信頼領域法による平均逆強化学習
- Authors: Xiaoteng Ma, Xiaohang Tang, Li Xia, Jun Yang, Qianchuan Zhao
- Abstract要約: 我々は、ディスカウントと平均基準を備えた統合信頼領域理論を策定する。
平均的基準により、信頼領域内での新たな性能は摂動解析(PA)理論によって導かれる。
本稿では,平均値制約(Average Value Constraint)と呼ばれる新しい手法を用いて,平均値推定法(APO)という実用的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 6.7838662053567615
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most of reinforcement learning algorithms optimize the discounted criterion
which is beneficial to accelerate the convergence and reduce the variance of
estimates. Although the discounted criterion is appropriate for certain tasks
such as financial related problems, many engineering problems treat future
rewards equally and prefer a long-run average criterion. In this paper, we
study the reinforcement learning problem with the long-run average criterion.
Firstly, we develop a unified trust region theory with discounted and average
criteria. With the average criterion, a novel performance bound within the
trust region is derived with the Perturbation Analysis (PA) theory. Secondly,
we propose a practical algorithm named Average Policy Optimization (APO), which
improves the value estimation with a novel technique named Average Value
Constraint. To the best of our knowledge, our work is the first one to study
the trust region approach with the average criterion and it complements the
framework of reinforcement learning beyond the discounted criterion. Finally,
experiments are conducted in the continuous control environment MuJoCo. In most
tasks, APO performs better than the discounted PPO, which demonstrates the
effectiveness of our approach.
- Abstract(参考訳): ほとんどの強化学習アルゴリズムは、収束を加速し、見積もりのばらつきを減らすのに役立つ割引基準を最適化する。
割引基準は金融問題などの特定のタスクに適しているが、多くの工学的問題は将来の報酬を等しく扱い、長期平均基準を好む。
本稿では,長期平均基準を用いた強化学習問題について検討する。
まず,割引基準と平均基準を併用した統一信頼領域理論を考案する。
平均的な基準により、信頼領域内に束縛された新しいパフォーマンスは摂動解析(pa)理論によって導かれる。
次に,平均値制約と呼ばれる新しい手法を用いて,平均ポリシー最適化(apo)という実用的な手法を提案する。
我々の知る限り、我々の研究は信頼領域アプローチを平均基準で研究する最初のものであり、割引基準を超えた強化学習の枠組みを補完するものである。
最後に、連続制御環境である MuJoCo で実験を行う。
多くのタスクにおいて、APOは割引されたPPOよりも優れており、このアプローチの有効性を示している。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Off-Policy Average Reward Actor-Critic with Deterministic Policy Search [3.551625533648956]
我々は、平均報酬性能基準に対して、オン・ポリティとオフ・ポリティズム的政策勾配定理の両方を提示する。
また,ARO-DDPG(Average Reward Off-Policy Deep Deterministic Policy Gradient)アルゴリズムを提案する。
提案したARO-DDPGの平均報酬性能を比較し,MuJoCo環境上での最先端の平均報酬評価アルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-05-20T17:13:06Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Examining average and discounted reward optimality criteria in
reinforcement learning [4.873362301533825]
2つの主要な最適基準は平均と割引報酬であり、後者は一般に前者の近似と見なされる。
割引報酬はより人気があるが、割引という自然な概念を持たない環境で適用することは問題となる。
我々の貢献には、平均的な報酬と割引された報酬の関係を徹底的に検討することや、RLにおける彼らの長所と短所の議論が含まれる。
論文 参考訳(メタデータ) (2021-07-03T05:28:56Z) - On-Policy Deep Reinforcement Learning for the Average-Reward Criterion [9.343119070691735]
平均回帰型政治強化学習(RL)のための理論とアルゴリズムを開発する。
特に,Average-Reward TRPO (ATRPO) が平均再帰基準に適応し,最も困難な MuJuCo 環境において TRPO を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-14T12:12:09Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。