論文の概要: DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.15199v1
- Date: Fri, 26 Jun 2020 20:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:24:06.421003
- Title: DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning
- Title(参考訳): DDPG++: 継続的制御型オフポリティ強化学習におけるシンプルさの追求
- Authors: Rasool Fakoor, Pratik Chaudhari, Alexander J. Smola
- Abstract要約: 過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
- 参考スコア(独自算出の注目度): 95.60782037764928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper prescribes a suite of techniques for off-policy Reinforcement
Learning (RL) that simplify the training process and reduce the sample
complexity. First, we show that simple Deterministic Policy Gradient works
remarkably well as long as the overestimation bias is controlled. This is
contrast to existing literature which creates sophisticated off-policy
techniques. Second, we pinpoint training instabilities, typical of off-policy
algorithms, to the greedy policy update step; existing solutions such as
delayed policy updates do not mitigate this issue. Third, we show that ideas in
the propensity estimation literature can be used to importance-sample
transitions from the replay buffer and selectively update the policy to prevent
deterioration of performance. We make these claims using extensive
experimentation on a set of challenging MuJoCo tasks. A short video of our
results can be seen at https://tinyurl.com/scs6p5m .
- Abstract(参考訳): 本稿では,オフ・ポリティカル強化学習(rl)のための一連の手法を概説し,学習プロセスの簡素化とサンプルの複雑さの低減について述べる。
まず、過大評価バイアスが制御される限り、単純な決定論的政策勾配が著しく機能することを示す。
これは、洗練された政治技術を生み出す既存の文献とは対照的である。
第2に、非政治アルゴリズムの典型であるトレーニングの不安定性を、遅れたポリシー更新のような既存のソリューションがこの問題を軽減することはない、という欲求の政策更新ステップに向ける。
第3に,プロペンサリティ推定文献のアイデアをリプレイバッファから重要-サンプル遷移に利用し,ポリシーを選択的に更新することで性能の低下を防止できることを示す。
これらの主張は、挑戦的なmujocoタスクのセットで広範囲な実験を用いて行います。
結果の短いビデオはhttps://tinyurl.com/scs6p5m で見ることができる。
関連論文リスト
- Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。