論文の概要: Zeroth-Order Actor-Critic
- arxiv url: http://arxiv.org/abs/2201.12518v1
- Date: Sat, 29 Jan 2022 07:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:36:51.591063
- Title: Zeroth-Order Actor-Critic
- Title(参考訳): ゼロ階アクター臨界
- Authors: Yuheng Lei, Jianyu Chen, Shengbo Eben Li, Sifa Zheng
- Abstract要約: 本稿では,この2つの手法をオンラインアクター・クリティカル・アーキテクチャに統一するゼロ階アクター・クリティカル・アルゴリズム(ZOAC)を提案する。
提案手法は,ZOACが0次・1次ベースラインアルゴリズムより優れる,多種多様なポリシーを用いて,多種多様な連続制御ベンチマークを用いて評価する。
- 参考スコア(独自算出の注目度): 6.5158195776494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zeroth-order optimization methods and policy gradient based first-order
methods are two promising alternatives to solve reinforcement learning (RL)
problems with complementary advantages. The former work with arbitrary
policies, drive state-dependent and temporally-extended exploration, possess
robustness-seeking property, but suffer from high sample complexity, while the
latter are more sample efficient but restricted to differentiable policies and
the learned policies are less robust. We propose Zeroth-Order Actor-Critic
algorithm (ZOAC) that unifies these two methods into an on-policy actor-critic
architecture to preserve the advantages from both. ZOAC conducts rollouts
collection with timestep-wise perturbation in parameter space, first-order
policy evaluation (PEV) and zeroth-order policy improvement (PIM) alternately
in each iteration. We evaluate our proposed method on a range of challenging
continuous control benchmarks using different types of policies, where ZOAC
outperforms zeroth-order and first-order baseline algorithms.
- Abstract(参考訳): 0階次最適化法と政策勾配に基づく一階次法は相補的優位性を持つ強化学習(RL)問題を解くための有望な方法である。
任意の政策による以前の研究は、状態に依存して時間的に拡張された探索を推進し、堅牢性を求める性質を持っているが、サンプルの複雑さに悩まされている。
両手法の利点を維持するために,ZOAC(Zeroth-Order Actor-Critic Algorithm)を提案する。
ZOACは、パラメータ空間における時間的摂動、一階ポリシー評価(PEV)、ゼロ階ポリシー改善(PIM)を各イテレーションで交互に実施する。
提案手法は,ZOACが0次・1次ベースラインアルゴリズムより優れる,多種多様なポリシーを用いて,多種多様な連続制御ベンチマークを用いて評価する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Jointly Learning Environments and Control Policies with Projected
Stochastic Gradient Ascent [3.118384520557952]
この問題を解決するために,政策勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。
本質的に,本アルゴリズムはモンテカルロサンプリングと自動微分によって予測されるリターンの勾配を反復的に近似する。
DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを一貫して得ることができる、ということが示されます。
論文 参考訳(メタデータ) (2020-06-02T16:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。