論文の概要: Greedy Multi-step Off-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.11717v1
- Date: Tue, 23 Feb 2021 14:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 14:05:39.513097
- Title: Greedy Multi-step Off-Policy Reinforcement Learning
- Title(参考訳): Greedy Multi-step Off-Policy Reinforcement Learning
- Authors: Yuhui Wang, Pengcheng He, Xiaoyang Tan
- Abstract要約: そこで本研究では,ブートストラップ値の最大値を異なるステップでグリード的に取得するブートストラップ手法を提案する。
実験の結果,提案手法は信頼性が高く,実装が容易で,最先端の性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 14.720255341733413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-step off-policy reinforcement learning has achieved great success.
However, existing multi-step methods usually impose a fixed prior on the
bootstrap steps, while the off-policy methods often require additional
correction, suffering from certain undesired effects. In this paper, we propose
a novel bootstrapping method, which greedily takes the maximum value among the
bootstrapping values with varying steps. The new method has two desired
properties:1) it can flexibly adjust the bootstrap step based on the quality of
the data and the learned value function; 2) it can safely and robustly utilize
data from arbitrary behavior policy without additional correction, whatever its
quality or "off-policyness". We analyze the theoretical properties of the
related operator, showing that it is able to converge to the global optimal
value function, with a ratio faster than the traditional Bellman Optimality
Operator. Furthermore, based on this new operator, we derive new model-free RL
algorithms named Greedy Multi-Step Q Learning (and Greedy Multi-step DQN).
Experiments reveal that the proposed methods are reliable, easy to implement,
and achieve state-of-the-art performance on a series of standard benchmark
datasets.
- Abstract(参考訳): 多段階オフポリシー強化学習は大きな成功を収めました。
しかし、既存のマルチステップ法は通常ブートストラップのステップに固定前処理を課すが、オフポリシー法は特定の望ましくない影響に苦しむ追加の修正を必要とする。
そこで本論文では, ブートストラップ値の最大値を段階的に勾配的に取得する, 新たなブートストラップ法を提案する。
1)データの品質と学習値関数に基づいてブートストラップステップを柔軟に調整することができ、2)任意の行動方針のデータを、その品質や「オフポリシ性」に関係なく、追加修正することなく、安全かつ堅牢に活用することができる。
関連演算子の理論特性を分析し、従来のベルマン最適演算子よりも速い比率で、グローバルな最適値関数に収束できることを示します。
さらに、この新しい演算子に基づいて、Greedy Multi-Step Q Learning(およびGreedy Multi-Step DQN)という新しいモデルフリーRLアルゴリズムを導出する。
実験の結果,提案手法は信頼性が高く,実装が容易で,一連の標準ベンチマークデータセット上での最先端のパフォーマンスを実現していることがわかった。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning [44.50394347326546]
多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
論文 参考訳(メタデータ) (2023-01-26T18:57:41Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Parameter-free Gradient Temporal Difference Learning [3.553493344868414]
強化学習のためのグラデーションに基づく時間差アルゴリズムを開発。
当社のアルゴリズムは線形時間で動作し、GTD2のものを$log$ファクタまで一致させる高確率収束を保証します。
本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を保ちながら,チューニングを一切行わないことを示す。
論文 参考訳(メタデータ) (2021-05-10T06:07:05Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。