論文の概要: Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning
- arxiv url: http://arxiv.org/abs/2205.10047v1
- Date: Fri, 20 May 2022 09:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 01:24:08.231577
- Title: Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning
- Title(参考訳): sigmoidally preconditioned off-policy learning:強化学習のための新しい探索法
- Authors: Xing Chen, Dongcui Diao, Hechang Chen, Hengshuai Yao, Jielong Yang,
Haiyin Piao, Zhixiao Sun, Bei Jiang, Yi Chang
- Abstract要約: 政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
- 参考スコア(独自算出の注目度): 14.991913317341417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the major difficulties of reinforcement learning is learning from {\em
off-policy} samples, which are collected by a different policy (behavior
policy) from what the algorithm evaluates (the target policy). Off-policy
learning needs to correct the distribution of the samples from the behavior
policy towards that of the target policy. Unfortunately, important sampling has
an inherent high variance issue which leads to poor gradient estimation in
policy gradient methods. We focus on an off-policy Actor-Critic architecture,
and propose a novel method, called Preconditioned Proximal Policy Optimization
(P3O), which can control the high variance of importance sampling by applying a
preconditioner to the Conservative Policy Iteration (CPI) objective. {\em This
preconditioning uses the sigmoid function in a special way that when there is
no policy change, the gradient is maximal and hence policy gradient will drive
a big parameter update for an efficient exploration of the parameter space}.
This is a novel exploration method that has not been studied before given that
existing exploration methods are based on the novelty of states and actions. We
compare with several best-performing algorithms on both discrete and continuous
tasks and the results confirmed that {\em P3O is more off-policy than PPO}
according to the "off-policyness" measured by the DEON metric, and P3O explores
in a larger policy space than PPO. Results also show that our P3O maximizes the
CPI objective better than PPO during the training process.
- Abstract(参考訳): 強化学習の大きな難点の1つは、"em off-policy} サンプルから学習することであり、これはアルゴリズムが評価するもの(ターゲットポリシー)とは異なるポリシー(行動ポリシー)によって収集される。
オフポリシー学習は、行動ポリシーからターゲットポリシーへのサンプルの分布を補正する必要がある。
残念ながら、重要なサンプリングは本質的に高分散の問題であり、政策勾配法では勾配推定が不十分である。
本稿では,非政治的アクター・クリティカルアーキテクチャに着目し,保守政策イテレーション(CPI)の目的にプレコンディショナーを適用することで,重要度サンプリングの高分散を制御できるプリコンディショニング・プロキシ・ポリシー・オプティマイション(P3O)という新しい手法を提案する。
このプリコンディショニングは、ポリシーが変更されていない場合、勾配が最大であり、従ってポリシー勾配がパラメータ空間の効率的な探索のために大きなパラメータ更新を駆動する特別な方法で、sgmoid関数を使用する。
これは、既存の探査手法が状態や行動の新規性に基づいていることを考えれば、これまで研究されていない新しい探査方法である。
離散的タスクと連続的タスクの両方で最高のパフォーマンスのアルゴリズムを比較し、DECON測定値の「オフ・ポリティネス」に基づいて、P3OはPPOよりもオフ・ポリティシーであることが確認され、P3OはPPOよりも大きなポリシー空間で探索する。
また,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることを示した。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。