論文の概要: Variance Reduction Based Experience Replay for Policy Optimization
- arxiv url: http://arxiv.org/abs/2110.08902v3
- Date: Mon, 19 Feb 2024 15:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 07:54:50.317196
- Title: Variance Reduction Based Experience Replay for Policy Optimization
- Title(参考訳): ポリシー最適化のための分散削減に基づく経験リプレイ
- Authors: Hua Zheng, Wei Xie, M. Ben Feng
- Abstract要約: Variance Reduction Experience Replay (VRER) は、異なるポリシー最適化アルゴリズムとシームレスに統合できる適応可能な方法である。
VRERは、最適ポリシーの学習において顕著な加速を提供し、最先端(SOTA)ポリシー最適化アプローチのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 3.4605290959269075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For reinforcement learning on complex stochastic systems, it is desirable to
effectively leverage the information from historical samples collected in
previous iterations to accelerate policy optimization. Classical experience
replay, while effective, treats all observations uniformly, neglecting their
relative importance. To address this limitation, we introduce a novel Variance
Reduction Experience Replay (VRER) framework, enabling the selective reuse of
relevant samples to improve policy gradient estimation. VRER, as an adaptable
method that can seamlessly integrate with different policy optimization
algorithms, forms the foundation of our sample-efficient off-policy algorithm
known as Policy Optimization with VRER (PG-VRER). Furthermore, the lack of a
rigorous theoretical understanding of the experience replay method in the
literature motivates us to introduce a novel theoretical framework that
accounts for sample dependencies induced by Markovian noise and behavior policy
interdependencies. This framework is then employed to analyze the finite-time
convergence of our VRER-based policy optimization algorithm, revealing a
crucial bias-variance trade-off in policy gradient estimates: the reuse of old
experience introduces increased bias while simultaneously reducing gradient
variance. Extensive experiments have shown that VRER offers a notable
acceleration in learning optimal policies and enhances the performance of
state-of-the-art (SOTA) policy optimization approaches.
- Abstract(参考訳): 複雑な確率システムの強化学習には、過去の繰り返しで収集した履歴サンプルの情報を有効に活用し、政策最適化を加速することが望ましい。
古典的な経験は、効果はあるものの、すべての観察を均一に扱い、相対的な重要性を無視している。
この制限に対処するために,新しい分散削減エクスペリエンスリプレイ(vrer)フレームワークを導入し,関連するサンプルを選択的に再利用することで,ポリシ勾配推定を改善する。
VRERは、異なるポリシー最適化アルゴリズムとシームレスに統合できる適応可能な方法として、我々のサンプル効率の良いオフポリチアルゴリズムであるPG-VRER(Policy Optimization with VRER)の基礎を形成します。
さらに,経験リプレイ法の厳密な理論的理解の欠如は,マルコフ雑音と行動政策の相互依存性によって引き起こされるサンプル依存性を考慮した新しい理論的枠組みの導入を動機付ける。
このフレームワークは、vrerベースのポリシー最適化アルゴリズムの有限時間収束を分析し、ポリシー勾配推定における重要なバイアス分散トレードオフを明らかにするために使われます。
大規模な実験により、VRERは最適ポリシーの学習において顕著な加速を提供し、最先端(SOTA)ポリシー最適化アプローチの性能を向上させることが示されている。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Reusing Historical Trajectories in Natural Policy Gradient via
Importance Sampling: Convergence and Convergence Rate [8.943964058164257]
本研究では,重要度勾配サンプリングを用いて,歴史軌道を再利用した自然政策の変種について検討する。
勾配サンプリングの予測器のバイアスは勾配無視可能であり, 結果のアルゴリズムは収束し, 過去の軌道の再利用は収束率の向上に役立つことを示す。
論文 参考訳(メタデータ) (2024-03-01T17:08:30Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0657293044976894]
本稿では,最も関連性の高いサンプルを選択的に再利用し,政策勾配推定を改善する汎用分散還元型体験再生(VRER)フレームワークを提案する。
我々の理論的および実証的研究は、提案したVRERが最適なポリシーの学習を加速し、最先端のポリシー最適化アプローチの性能を高めることができることを示している。
論文 参考訳(メタデータ) (2022-08-25T20:51:00Z) - Variance Reduction based Partial Trajectory Reuse to Accelerate Policy
Gradient Optimization [3.621753051212441]
我々は,グリーンシミュレーション支援政策勾配(GS-PG)の考え方をマルコフ決定過程(MDP)の歴史的部分的再利用に拡張する。
本稿では、MLRに基づく政策勾配推定法を用いて、異なる行動方針の下で生成された歴史的状態決定遷移の情報を活用する。
論文 参考訳(メタデータ) (2022-05-06T01:42:28Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。