論文の概要: Off-Policy Correction for Actor-Critic Algorithms in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2208.00755v1
- Date: Mon, 1 Aug 2022 11:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:06:55.405666
- Title: Off-Policy Correction for Actor-Critic Algorithms in Deep Reinforcement
Learning
- Title(参考訳): 深部強化学習におけるアクタクリティカルアルゴリズムのオフポリティ補正
- Authors: Baturay Saglam, Dogan C. Cicek, Furkan B. Mutlu, Suleyman S. Kozat
- Abstract要約: オフ政治モデルフリーの深層強化学習アプローチはサンプリング効率を向上させることができる。
関心の政策の分布とデータ収集の方針の相違が大きくなると、非政治的な学習は困難になる。
本稿では,連続的な行動空間,アクター・クリティカル・オフポリシィ補正(AC-Off-POC)に対する代替のオフポリティ補正アルゴリズムを提案する。
我々は、AC-Off-POCが一貫して最先端の手法を改善し、競合する手法よりも少ないステップで高いリターンを達成することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to on-policy policy gradient techniques, off-policy model-free deep
reinforcement learning (RL) approaches that use previously gathered data can
improve sampling efficiency. However, off-policy learning becomes challenging
when the discrepancy between the distributions of the policy of interest and
the policies that collected the data increases. Although the well-studied
importance sampling and off-policy policy gradient techniques were proposed to
compensate for this discrepancy, they usually require a collection of long
trajectories that increases the computational complexity and induce additional
problems such as vanishing or exploding gradients. Moreover, their
generalization to continuous action domains is strictly limited as they require
action probabilities, which is unsuitable for deterministic policies. To
overcome these limitations, we introduce an alternative off-policy correction
algorithm for continuous action spaces, Actor-Critic Off-Policy Correction
(AC-Off-POC), to mitigate the potential drawbacks introduced by the previously
collected data. Through a novel discrepancy measure computed by the agent's
most recent action decisions on the states of the randomly sampled batch of
transitions, the approach does not require actual or estimated action
probabilities for any policy and offers an adequate one-step importance
sampling. Theoretical results show that the introduced approach can achieve a
contraction mapping with a fixed unique point, which allows a "safe" off-policy
learning. Our empirical results suggest that AC-Off-POC consistently improves
the state-of-the-art and attains higher returns in fewer steps than the
competing methods by efficiently scheduling the learning rate in Q-learning and
policy optimization.
- Abstract(参考訳): オンライン政策勾配法と比較すると,事前収集データを用いた非政治モデルフリー深部強化学習(RL)アプローチはサンプリング効率を向上させることができる。
しかし、関心の政策の分布とデータを収集した政策との相違が大きくなると、政治以外の学習は困難になる。
この矛盾を補うために、よく研究された重要度サンプリングとオフポリシーの政策勾配技術が提案されたが、それらは通常、計算の複雑さを増加させ、勾配の消失や爆発のような追加の問題を引き起こす長い軌道の集まりを必要とする。
さらに、連続的なアクションドメインへの一般化は、決定論的ポリシーには不向きなアクション確率を必要とするため、厳密に制限されている。
これらの制約を克服するために, 連続的な行動空間に対する代替のオフポリシー補正アルゴリズム, Actor-Critic Off-Policy Correction (AC-Off-POC)を導入する。
ランダムにサンプリングされた一連の遷移の状態に関するエージェントの最近の行動決定によって計算された新しい不一致測定によって、このアプローチは、任意のポリシーに対して実際のまたは推定された行動確率を必要としず、適切な一段階の重要サンプリングを提供する。
理論的な結果は、導入されたアプローチが固定された一意点を持つ縮退写像を達成できることを示している。
実験結果から,AC-Off-POCはQ-ラーニングとポリシー最適化の学習率を効率的にスケジューリングすることにより,最先端の手法を一貫して改善し,競合手法よりも少ないステップで高いリターンを達成することが示唆された。
関連論文リスト
- Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。