論文の概要: Variance Reduction based Partial Trajectory Reuse to Accelerate Policy
Gradient Optimization
- arxiv url: http://arxiv.org/abs/2205.02976v1
- Date: Fri, 6 May 2022 01:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 22:11:37.105049
- Title: Variance Reduction based Partial Trajectory Reuse to Accelerate Policy
Gradient Optimization
- Title(参考訳): 変動低減に基づく部分軌道再利用による政策勾配最適化の高速化
- Authors: Hua Zheng, Wei Xie
- Abstract要約: 我々は,グリーンシミュレーション支援政策勾配(GS-PG)の考え方をマルコフ決定過程(MDP)の歴史的部分的再利用に拡張する。
本稿では、MLRに基づく政策勾配推定法を用いて、異なる行動方針の下で生成された歴史的状態決定遷移の情報を活用する。
- 参考スコア(独自算出の注目度): 3.621753051212441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We extend the idea underlying the success of green simulation assisted policy
gradient (GS-PG) to partial historical trajectory reuse for infinite-horizon
Markov Decision Processes (MDP). The existing GS-PG method was designed to
learn from complete episodes or process trajectories, which limits its
applicability to low-data environment and online process control. In this
paper, the mixture likelihood ratio (MLR) based policy gradient estimation is
used to leverage the information from historical state decision transitions
generated under different behavioral policies. We propose a variance reduction
experience replay (VRER) approach that can intelligently select and reuse most
relevant transition observations, improve the policy gradient estimation
accuracy, and accelerate the learning of optimal policy. Then we create a
process control strategy by incorporating VRER with the state-of-the-art
step-based policy optimization approaches such as actor-critic method and
proximal policy optimizations. The empirical study demonstrates that the
proposed policy gradient methodology can significantly outperform the existing
policy optimization approaches.
- Abstract(参考訳): 我々は,グリーンシミュレーション支援政策勾配 (gs-pg) の成功を,無限水平マルコフ決定過程 (mdp) の部分的履歴軌道再利用にまで拡張した。
既存のGS-PG法は、完全なエピソードやプロセス軌跡から学習するために設計され、低データ環境とオンラインプロセス制御に適用性を制限する。
本稿では, 異なる行動政策下で発生した歴史的状態決定遷移からの情報を活用するために, 混合度比 (mlr) に基づく政策勾配推定を用いた。
本稿では,最も関連する遷移観測をインテリジェントに選択・再利用し,政策勾配推定精度を向上し,最適政策の学習を加速できる分散還元経験リプレイ(vrer)手法を提案する。
次に,VRERをアクタクリティカル法や近親ポリシー最適化といった最先端のステップベースポリシー最適化アプローチに組み込むことで,プロセス制御戦略を構築する。
実証実験により,提案手法が既存の政策最適化手法を大幅に上回ることを示す。
関連論文リスト
- vMFER: Von Mises-Fisher Experience Resampling Based on Uncertainty of Gradient Directions for Policy Improvement [57.926269845305804]
本研究は、アンサンブル批評家が政策改善に与える影響について検討する。
本稿では、政策改善プロセスで利用される勾配間の不一致を測定する手段として、勾配方向の不確実性の概念を導入する。
政策改善プロセスにおいて、勾配方向の不確実性の低い遷移の方が信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2024-05-14T14:18:25Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - MPC-based Reinforcement Learning for Economic Problems with Application
to Battery Storage [0.0]
モデル予測制御(MPC)に基づく政策近似に焦点を当てます。
政策勾配法は,政策が(ほぼ)バンバン構造を持つ場合,政策パラメータに意味のあるステップを生じさせることに苦慮する。
本稿では,内点法に基づくホモトピー戦略を提案し,学習中に方針を緩和する。
論文 参考訳(メタデータ) (2021-04-06T10:37:14Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。