論文の概要: Variance Reduction based Experience Replay for Policy Optimization
- arxiv url: http://arxiv.org/abs/2208.12341v1
- Date: Thu, 25 Aug 2022 20:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:38:08.789133
- Title: Variance Reduction based Experience Replay for Policy Optimization
- Title(参考訳): ポリシー最適化のための分散削減に基づく経験リプレイ
- Authors: Hua Zheng, Wei Xie, M. Ben Feng
- Abstract要約: 本稿では,最も関連性の高いサンプルを選択的に再利用し,政策勾配推定を改善する汎用分散還元型体験再生(VRER)フレームワークを提案する。
我々の理論的および実証的研究は、提案したVRERが最適なポリシーの学習を加速し、最先端のポリシー最適化アプローチの性能を高めることができることを示している。
- 参考スコア(独自算出の注目度): 3.0657293044976894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For reinforcement learning on complex stochastic systems where many factors
dynamically impact the output trajectories, it is desirable to effectively
leverage the information from historical samples collected in previous
iterations to accelerate policy optimization. Classical experience replay
allows agents to remember by reusing historical observations. However, the
uniform reuse strategy that treats all observations equally overlooks the
relative importance of different samples. To overcome this limitation, we
propose a general variance reduction based experience replay (VRER) framework
that can selectively reuse the most relevant samples to improve policy gradient
estimation. This selective mechanism can adaptively put more weight on past
samples that are more likely to be generated by the current target
distribution. Our theoretical and empirical studies show that the proposed VRER
can accelerate the learning of optimal policy and enhance the performance of
state-of-the-art policy optimization approaches.
- Abstract(参考訳): 多くの要因が出力軌跡に動的に影響を及ぼす複雑な確率的システムの強化学習には、過去のイテレーションで収集した履歴サンプルの情報を有効に活用し、政策最適化を加速することが望ましい。
古典的な体験リプレイは、エージェントが歴史的な観察を再利用することで記憶することができる。
しかしながら、全ての観測を扱う統一的な再利用戦略は、異なるサンプルの相対的重要性を等しく見落としている。
この制限を克服するために、最も関連するサンプルを選択的に再利用し、ポリシー勾配推定を改善する汎用分散還元型体験再生(VRER)フレームワークを提案する。
この選択的メカニズムは、現在のターゲット分布によって生成される可能性が高い過去のサンプルに適応的に重みを付けることができる。
本研究は,vrerが最適政策の学習を加速し,最新の政策最適化手法の性能を向上させることを示す。
関連論文リスト
- Reusing Historical Trajectories in Natural Policy Gradient via
Importance Sampling: Convergence and Convergence Rate [8.943964058164257]
本研究では,重要度勾配サンプリングを用いて,歴史軌道を再利用した自然政策の変種について検討する。
勾配サンプリングの予測器のバイアスは勾配無視可能であり, 結果のアルゴリズムは収束し, 過去の軌道の再利用は収束率の向上に役立つことを示す。
論文 参考訳(メタデータ) (2024-03-01T17:08:30Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Variance Reduction based Partial Trajectory Reuse to Accelerate Policy
Gradient Optimization [3.621753051212441]
我々は,グリーンシミュレーション支援政策勾配(GS-PG)の考え方をマルコフ決定過程(MDP)の歴史的部分的再利用に拡張する。
本稿では、MLRに基づく政策勾配推定法を用いて、異なる行動方針の下で生成された歴史的状態決定遷移の情報を活用する。
論文 参考訳(メタデータ) (2022-05-06T01:42:28Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。