論文の概要: Model-free Policy Learning with Reward Gradients
- arxiv url: http://arxiv.org/abs/2103.05147v1
- Date: Tue, 9 Mar 2021 00:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 15:09:59.179508
- Title: Model-free Policy Learning with Reward Gradients
- Title(参考訳): Reward Gradientsを用いたモデルフリー政策学習
- Authors: Qingfeng Lan, A. Rupam Mahmood
- Abstract要約: 政策勾配法は、可能性比(LR)推定器または再パラメータ化(RP)推定器のみに基づいて政策目標の勾配を推定する。
RP推定値に基づいて既存の勾配法を統一する理論的枠組みを提供する。
我々は,報奨ポリシー勾配アルゴリズムと呼ばれる新しいオンポリシーアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 3.274290296343038
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Policy gradient methods estimate the gradient of a policy objective solely
based on either the likelihood ratio (LR) estimator or the reparameterization
(RP) estimator for estimating gradients. Many policy gradient methods based on
the LR estimator can be unified under the policy gradient theorem (Sutton et
al., 2000). However, such a unifying theorem does not exist for policy gradient
methods based on the RP estimator. Moreover, no existing method requires and
uses both estimators beyond a trivial interpolation between them. In this
paper, we provide a theoretical framework that unifies several existing policy
gradient methods based on the RP estimator. Utilizing our framework, we
introduce a novel strategy to compute the policy gradient that, for the first
time, incorporates both the LR and RP estimators and can be unbiased only when
both estimators are present. Based on this strategy, we develop a new on-policy
algorithm called the Reward Policy Gradient algorithm, which is the first
model-free policy gradient method to utilize reward gradients. Using an
idealized environment, we show that policy gradient solely based on the RP
estimator for rewards are biased even with true rewards whereas our combined
estimator is not. Finally, we show that our method either performs comparably
with or outperforms Proximal Policy Optimization -- an LR-based on-policy
method -- on several continuous control tasks.
- Abstract(参考訳): 政策勾配法は、勾配を推定するための可能性比(LR)推定器または再パラメータ化(RP)推定器にのみ基いて政策目標の勾配を推定する。
LR推定器に基づく多くのポリシー勾配法はポリシー勾配定理の下で統一することができる(Sutton et al., 2000)。
しかし、そのような統一定理はRP推定器に基づく政策勾配法には存在しない。
さらに、既存のメソッドは、それらの間の自明な補間を超えて両方の推定器を要求し、使用することはない。
本稿では,RP推定値に基づく既存の政策勾配手法を統一する理論的枠組みを提案する。
本手法を応用して,LRとRPの両推定器を組み込んだポリシ勾配を計算し,両推定器が存在する場合にのみ非バイアス化できる新しい戦略を導入する。
この戦略に基づいて、報酬勾配を利用する最初のモデルフリーなポリシー勾配法である、Reward Policy Gradientアルゴリズムと呼ばれる新しいオンデマンドアルゴリズムを開発する。
理想化された環境を用いることで、報酬に対するrp推定値のみに基づく政策勾配が真の報酬であってもバイアスとなることを示し、我々の組み合わせ推定値がそうではないことを示す。
最後に,本手法は,LRベースのオンポリシ手法であるProximal Policy Optimizationと,複数の連続制御タスクで比較可能に,あるいは比較可能に実行できることを示した。
関連論文リスト
- A Novel Variational Lower Bound for Inverse Reinforcement Learning [5.370126167091961]
逆強化学習(IRL)は、専門家の軌道から報酬関数を学習しようとする。
IRL(VLB-IRL)のための新しい変分下界について述べる。
本手法は,学習した報酬関数の下で報酬関数とポリシーを同時に学習する。
論文 参考訳(メタデータ) (2023-11-07T03:50:43Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-02-20T05:51:28Z) - Difference Rewards Policy Gradients [17.644110838053134]
本稿では,分散化政策の学習を可能にするために,差分報酬とポリシを組み合わせた新しいアルゴリズムを提案する。
報酬関数を直接区別することで、Dr.ReinforceはQ-関数の学習に伴う困難を避けることができる。
差分報酬を推定するために用いられる追加報酬ネットワークを学習するDr.Reinforceのバージョンの有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T11:23:17Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。