論文の概要: Bootstrap Advantage Estimation for Policy Optimization in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.07312v1
- Date: Thu, 13 Oct 2022 19:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:24:03.393108
- Title: Bootstrap Advantage Estimation for Policy Optimization in Reinforcement
Learning
- Title(参考訳): 強化学習における政策最適化のためのブートストラップアドバンテージ推定
- Authors: Md Masudur Rahman, Yexiang Xue
- Abstract要約: 本稿では,政策最適化のためのデータ拡張に基づく利点推定手法を提案する。
本手法では,ブートストラップの利点推定の計算にデータ拡張を用いる。
提案手法は,一般化された優位性推定よりも,ポリシと値損失を低減させる。
- 参考スコア(独自算出の注目度): 16.999444076456268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an advantage estimation approach based on data
augmentation for policy optimization. Unlike using data augmentation on the
input to learn value and policy function as existing methods use, our method
uses data augmentation to compute a bootstrap advantage estimation. This
Bootstrap Advantage Estimation (BAE) is then used for learning and updating the
gradient of policy and value function. To demonstrate the effectiveness of our
approach, we conducted experiments on several environments. These environments
are from three benchmarks: Procgen, Deepmind Control, and Pybullet, which
include both image and vector-based observations; discrete and continuous
action spaces. We observe that our method reduces the policy and the value loss
better than the Generalized advantage estimation (GAE) method and eventually
improves cumulative return. Furthermore, our method performs better than two
recently proposed data augmentation techniques (RAD and DRAC). Overall, our
method performs better empirically than baselines in sample efficiency and
generalization, where the agent is tested in unseen environments.
- Abstract(参考訳): 本稿では,政策最適化のためのデータ拡張に基づく利点推定手法を提案する。
既存の手法が使用する値とポリシ関数を学習するために入力にデータ拡張を用いるのとは異なり、ブートストラップの利点推定を計算するためにデータ拡張を使用する。
このBootstrap Advantage Estimation (BAE)は、ポリシーと値関数の勾配を学習し、更新するために使用される。
提案手法の有効性を示すため,いくつかの環境で実験を行った。
これらの環境は、procgen、deepmind control、pybulletの3つのベンチマークから来ている。
提案手法は,一般化アドバンテージ推定 (gae) 法よりも方針と価値損失を低減し,最終的に累積リターンを改善する。
さらに,本手法は,最近提案されたデータ拡張技術 (RAD, DRAC) よりも優れている。
本手法は, サンプルの効率や一般化において, エージェントが見えない環境でテストされる場合, ベースラインよりも経験的に優れている。
関連論文リスト
- Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits [25.153656462604268]
オフラインのA/Bテストと反ファクトラーニングの手法は、検索システムやレコメンデーションシステムに急速に採用されている。
これらの手法で一般的に使用される対物推定器は、ログポリシが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性がある。
本稿では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するための,MVAL(Minimum Variance Augmentation Logging)を提案する。
論文 参考訳(メタデータ) (2022-02-03T17:37:11Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Reducing Conservativeness Oriented Offline Reinforcement Learning [29.895142928565228]
オフライン強化学習では、ポリシーはデータの固定コレクションで累積報酬を最大化する。
保守性指向強化学習を減らす方法を提案する。
提案手法は,提供されたデータセットの歪分布に対処し,期待値関数に近い値関数を導出することができる。
論文 参考訳(メタデータ) (2021-02-27T01:21:01Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。