論文の概要: Gaussian Process Policy Optimization
- arxiv url: http://arxiv.org/abs/2003.01074v1
- Date: Mon, 2 Mar 2020 18:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:30:40.523823
- Title: Gaussian Process Policy Optimization
- Title(参考訳): ガウス過程政策最適化
- Authors: Ashish Rao, Bidipta Sarkar, and Tejas Narayanan
- Abstract要約: 本稿では,アクターに批判的かつモデルなしの強化学習アルゴリズムを提案する。
ベイズ的パラメータ空間探索法を用いて環境を解く。
ロボットの移動をシミュレートする環境において、現在のアルゴリズムよりも経験的に優れていることが示されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel actor-critic, model-free reinforcement learning algorithm
which employs a Bayesian method of parameter space exploration to solve
environments. A Gaussian process is used to learn the expected return of a
policy given the policy's parameters. The system is trained by updating the
parameters using gradient descent on a new surrogate loss function consisting
of the Proximal Policy Optimization 'Clipped' loss function and a bonus term
representing the expected improvement acquisition function given by the
Gaussian process. This new method is shown to be comparable to and at times
empirically outperform current algorithms on environments that simulate robotic
locomotion using the MuJoCo physics engine.
- Abstract(参考訳): 本研究では,ベイズ的パラメータ空間探索法を応用したアクター批判型モデルレス強化学習アルゴリズムを提案する。
ガウス過程は、ポリシーのパラメータからポリシーの期待された回帰を学ぶために用いられる。
本システムは, ガウス過程が与える期待する改善獲得関数を表すボーナス項と, 近似ポリシ最適化'クラッピング'損失関数からなる新しい代理損失関数に基づいて, 勾配降下を用いたパラメータの更新により訓練を行う。
この新しい手法は、MuJoCo物理エンジンを用いてロボットの移動をシミュレートする環境において、現在のアルゴリズムを実証的に上回っている。
関連論文リスト
- Enhancing Gaussian Process Surrogates for Optimization and Posterior Approximation via Random Exploration [2.984929040246293]
ガウス過程シュロゲートモデルの精度を高めるために、ランダムな探索ステップに依存する新しいノイズフリーベイズ最適化戦略。
新しいアルゴリズムは、古典的なGP-UCBの実装の容易さを維持しているが、さらなる探索がそれらの収束を促進する。
論文 参考訳(メタデータ) (2024-01-30T14:16:06Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - GPU-Accelerated Policy Optimization via Batch Automatic Differentiation
of Gaussian Processes for Real-World Control [8.720903734757627]
我々は, 高速な予測サンプリング手法を利用して, 前方通過毎に軌道のバッチ処理を行うことにより, 政策最適化手法を開発した。
重機を用いた基準追従制御実験の訓練方針における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-28T09:31:15Z) - Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence
Optimization [1.7970523486905976]
本稿では、強化学習(RL)の新たな解釈を、KL(Kulback-Leibler)の分散最適化として扱う。
前方KL分散を用いた新しい最適化手法を導出する。
現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。
論文 参考訳(メタデータ) (2021-05-27T08:24:51Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Learning to be Global Optimizer [28.88646928299302]
いくつかのベンチマーク関数に対して最適なネットワークとエスケープ能力アルゴリズムを学習する。
学習したアルゴリズムは、よく知られた古典最適化アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-10T03:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。