論文の概要: Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction
- arxiv url: http://arxiv.org/abs/2110.12081v1
- Date: Fri, 22 Oct 2021 22:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 01:21:36.525774
- Title: Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction
- Title(参考訳): 最適探索と分布補正によるオフポリティクス強化学習
- Authors: Jiachen Li, Shuo Cheng, Zhenyu Liao, Huayan Wang, William Yang Wang,
Qinxun Bai
- Abstract要約: 我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
- 参考スコア(独自算出の注目度): 73.77593805292194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving sample efficiency of reinforcement learning algorithms requires
effective exploration. Following the principle of $\textit{optimism in the face
of uncertainty}$, we train a separate exploration policy to maximize an
approximate upper confidence bound of the critics in an off-policy actor-critic
framework. However, this introduces extra differences between the replay buffer
and the target policy in terms of their stationary state-action distributions.
To mitigate the off-policy-ness, we adapt the recently introduced DICE
framework to learn a distribution correction ratio for off-policy actor-critic
training. In particular, we correct the training distribution for both policies
and critics. Empirically, we evaluate our proposed method in several
challenging continuous control tasks and show superior performance compared to
state-of-the-art methods. We also conduct extensive ablation studies to
demonstrate the effectiveness and the rationality of the proposed method.
- Abstract(参考訳): 強化学習アルゴリズムのサンプル効率の向上には効果的な探索が必要である。
不確実性に直面して、$\textit{optimism in the face of uncertainty}$という原則に従って、我々は、オフポリティカルなアクター-批判の枠組みで批評家の概ね高い信頼度を最大化するために、別の探索政策を訓練します。
しかし、これは、定常状態-アクション分布の観点から、リプレイバッファとターゲットポリシーの間に追加的な違いをもたらす。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
特に,政策と批判の両方のトレーニング分布を補正する。
実験では,提案手法をいくつかの難解な連続制御タスクで評価し,最先端手法と比較して優れた性能を示す。
また,提案手法の有効性と合理性を示すため,広範なアブレーション研究を行った。
関連論文リスト
- Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Learning Pessimism for Robust and Efficient Off-Policy Reinforcement
Learning [0.0]
時間差学習における過大評価バイアスを補償するオフポリティ深い強化学習アルゴリズム。
そこで本研究では,このような悲観主義を実践するために,新たな学習可能なペナルティを提案する。
また,2つのTD学習で批判者とともにペナルティを学習することを提案する。
論文 参考訳(メタデータ) (2021-10-07T12:13:19Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。