論文の概要: Variance Reduction Based Experience Replay for Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.05379v1
- Date: Thu, 05 Feb 2026 06:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.798493
- Title: Variance Reduction Based Experience Replay for Policy Optimization
- Title(参考訳): 可変化に基づく政策最適化のための経験リプレイ
- Authors: Hua Zheng, Wei Xie, M. Ben Feng, Keilung Choy,
- Abstract要約: Variance Reduction Experience Replay (VRER) は、ポリシー勾配推定におけるばらつきを低減するために、情報的サンプルを選択的に再利用する原則的なフレームワークである。
VRERはアルゴリズムに依存しず、既存のポリシー最適化手法とシームレスに統合される。
我々は,VRERが政策学習を継続的に加速し,最先端の政策最適化アルゴリズムよりも性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 3.7128732378843394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective reinforcement learning (RL) for complex stochastic systems requires leveraging historical data collected in previous iterations to accelerate policy optimization. Classical experience replay treats all past observations uniformly and fails to account for their varying contributions to learning. To overcome this limitation, we propose Variance Reduction Experience Replay (VRER), a principled framework that selectively reuses informative samples to reduce variance in policy gradient estimation. VRER is algorithm-agnostic and integrates seamlessly with existing policy optimization methods, forming the basis of our sample-efficient off-policy algorithm, Policy Gradient with VRER (PG-VRER). Motivated by the lack of rigorous theoretical analysis of experience replay, we develop a novel framework that explicitly captures dependencies introduced by Markovian dynamics and behavior-policy interactions. Using this framework, we establish finite-time convergence guarantees for PG-VRER and reveal a fundamental bias-variance trade-off: reusing older experience increases bias but simultaneously reduces gradient variance. Extensive empirical experiments demonstrate that VRER consistently accelerates policy learning and improves performance over state-of-the-art policy optimization algorithms.
- Abstract(参考訳): 複雑な確率システムのための効果的な強化学習(RL)は、ポリシー最適化を加速するために、以前のイテレーションで収集された履歴データを活用する必要がある。
古典的な経験の再現は過去のすべての観察を均一に扱い、学習への様々な貢献を説明できない。
この制限を克服するため,政策勾配推定のばらつきを軽減するために,情報化サンプルを選択的に再利用する原則的フレームワークであるVRER(Variance Reduction Experience Replay)を提案する。
VRERはアルゴリズムに依存しず、既存のポリシー最適化手法とシームレスに統合され、サンプル効率の良いオフポリシーアルゴリズムであるPG-VRER(Policy Gradient with VRER)の基礎を形成します。
経験リプレイの厳密な理論的分析が欠如していることから,マルコフ力学や行動と政治の相互作用によって引き起こされる依存関係を明示的に捉える新しいフレームワークを開発した。
このフレームワークを用いて、PG-VRERの有限時間収束保証を確立し、基本的なバイアス分散トレードオフを明らかにする。
大規模な実証実験により、VRERはポリシー学習を継続的に加速し、最先端のポリシー最適化アルゴリズムよりも性能を向上させることが示された。
関連論文リスト
- Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0657293044976894]
本稿では,最も関連性の高いサンプルを選択的に再利用し,政策勾配推定を改善する汎用分散還元型体験再生(VRER)フレームワークを提案する。
我々の理論的および実証的研究は、提案したVRERが最適なポリシーの学習を加速し、最先端のポリシー最適化アプローチの性能を高めることができることを示している。
論文 参考訳(メタデータ) (2022-08-25T20:51:00Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。