論文の概要: Bregman Gradient Policy Optimization
- arxiv url: http://arxiv.org/abs/2106.12112v1
- Date: Wed, 23 Jun 2021 01:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:08:56.736212
- Title: Bregman Gradient Policy Optimization
- Title(参考訳): bregmangradient policyの最適化
- Authors: Feihu Huang, Shangqian Gao, Heng Huang
- Abstract要約: 本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
- 参考スコア(独自算出の注目度): 97.73041344738117
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we design a novel Bregman gradient policy optimization
framework for reinforcement learning based on Bregman divergences and momentum
techniques. Specifically, we propose a Bregman gradient policy optimization
(BGPO) algorithm based on the basic momentum technique and mirror descent
iteration. At the same time, we present an accelerated Bregman gradient policy
optimization (VR-BGPO) algorithm based on a momentum variance-reduced
technique. Moreover, we introduce a convergence analysis framework for our
Bregman gradient policy optimization under the nonconvex setting. Specifically,
we prove that BGPO achieves the sample complexity of $\tilde{O}(\epsilon^{-4})$
for finding $\epsilon$-stationary point only requiring one trajectory at each
iteration, and VR-BGPO reaches the best known sample complexity of
$\tilde{O}(\epsilon^{-3})$ for finding an $\epsilon$-stationary point, which
also only requires one trajectory at each iteration. In particular, by using
different Bregman divergences, our methods unify many existing policy
optimization algorithms and their new variants such as the existing
(variance-reduced) policy gradient algorithms and (variance-reduced) natural
policy gradient algorithms. Extensive experimental results on multiple
reinforcement learning tasks demonstrate the efficiency of our new algorithms.
- Abstract(参考訳): 本稿では,Bregman分散度と運動量に基づく強化学習のための新しいBregman勾配ポリシー最適化フレームワークを設計する。
具体的には,基本運動量法とミラー降下反復に基づくBregmanグラデーションポリシー最適化(BGPO)アルゴリズムを提案する。
同時に,運動量分散を再現した手法に基づいて,ブレグマン勾配ポリシー最適化(VR-BGPO)アルゴリズムを提案する。
さらに,非凸条件下でのブレグマン勾配政策最適化のための収束解析フレームワークを提案する。
具体的には、BGPOが各反復で1つの軌道のみを必要とする$\epsilon$-stationary pointを見つけるために$\tilde{O}(\epsilon^{-4})$のサンプル複雑性を達成し、VR-BGPOは各反復で1つの軌道のみを必要とする$\tilde{O}(\epsilon^{-3})$の既知のサンプル複雑さに達することを証明している。
特に,Bregmanの相違を利用して,既存の政策最適化アルゴリズムと,既存の(分散還元)政策勾配アルゴリズムや(分散還元)自然政策勾配アルゴリズムなどの新しい変種を統一する。
複数の強化学習タスクに関する広範な実験結果から,新しいアルゴリズムの有効性が示された。
関連論文リスト
- Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Policy Optimization for Stochastic Shortest Path [43.2288319750466]
最短経路(SSP)問題に対する政策最適化について検討する。
本研究では,有限ホライゾンモデルを厳密に一般化した目標指向強化学習モデルを提案する。
ほとんどの設定において、我々のアルゴリズムは、ほぼ最適の後悔境界に達することが示されている。
論文 参考訳(メタデータ) (2022-02-07T16:25:14Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z) - A Hybrid Stochastic Policy Gradient Algorithm for Reinforcement Learning [32.91450388566405]
近接ハイブリッドポリシー勾配アルゴリズム(ProxHSPGA)の開発
両アルゴリズムが最もよく知られた軌跡複雑性を$mathcalOleft(varepsilon-4right)$で実現できることを証明している。
我々は、強化学習におけるいくつかのよく知られた例に基づいて、アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2020-03-01T07:45:51Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。