論文の概要: Regularly Updated Deterministic Policy Gradient Algorithm
- arxiv url: http://arxiv.org/abs/2007.00169v1
- Date: Wed, 1 Jul 2020 01:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:00:46.047747
- Title: Regularly Updated Deterministic Policy Gradient Algorithm
- Title(参考訳): 規則的に更新された決定論的ポリシー勾配アルゴリズム
- Authors: Shuai Han and Wenbo Zhou and Shuai L\"u and Jiayu Yu
- Abstract要約: 本稿では,これらの問題に対する規則更新決定性(RUD)ポリシー勾配アルゴリズムを提案する。
本稿では,RUDを用いた学習手法が,従来の手法よりもリプレイバッファに新たなデータを活用することができることを理論的に証明する。
- 参考スコア(独自算出の注目度): 11.57539530904012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Deterministic Policy Gradient (DDPG) algorithm is one of the most
well-known reinforcement learning methods. However, this method is inefficient
and unstable in practical applications. On the other hand, the bias and
variance of the Q estimation in the target function are sometimes difficult to
control. This paper proposes a Regularly Updated Deterministic (RUD) policy
gradient algorithm for these problems. This paper theoretically proves that the
learning procedure with RUD can make better use of new data in replay buffer
than the traditional procedure. In addition, the low variance of the Q value in
RUD is more suitable for the current Clipped Double Q-learning strategy. This
paper has designed a comparison experiment against previous methods, an
ablation experiment with the original DDPG, and other analytical experiments in
Mujoco environments. The experimental results demonstrate the effectiveness and
superiority of RUD.
- Abstract(参考訳): DDPG(Deep Deterministic Policy Gradient)アルゴリズムは、最もよく知られた強化学習手法の1つである。
しかし、この方法は実用上は非効率で不安定である。
一方,目標関数におけるq推定の偏りやばらつきは制御が難しい場合がある。
本稿では,これらの問題に対する規則更新決定性(RUD)ポリシー勾配アルゴリズムを提案する。
本稿では,rudを用いた学習手法が,従来の手法よりも新しいデータをリプレイバッファで活用できることを理論的に証明する。
さらに、RUDにおけるQ値の低分散は、現在のClipped Double Q-learning戦略により適している。
本稿では,従来の手法との比較実験,ddpgによるアブレーション実験,ムジョコ環境における他の解析実験について述べる。
実験の結果, RUDの有効性と優位性を示した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Coordinate-wise Control Variates for Deep Policy Gradients [23.24910014825916]
ニューラルネットポリシーに対するベクトル値ベースラインの効果は未解明である。
従来のスカラー値ベースラインよりも低分散性が得られることを示す。
論文 参考訳(メタデータ) (2021-07-11T07:36:01Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。
近勾配法はOWL回帰を解くための標準手法として用いられる。
未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文 参考訳(メタデータ) (2020-06-29T23:35:53Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。