論文の概要: Dimensionality Reduction and Prioritized Exploration for Policy Search
- arxiv url: http://arxiv.org/abs/2203.04791v1
- Date: Wed, 9 Mar 2022 15:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 16:18:07.064718
- Title: Dimensionality Reduction and Prioritized Exploration for Policy Search
- Title(参考訳): 政策探索のための次元削減と優先探索
- Authors: Marius Memmel, Puze Liu, Davide Tateo, Jan Peters
- Abstract要約: Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
- 参考スコア(独自算出の注目度): 29.310742141970394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Black-box policy optimization is a class of reinforcement learning algorithms
that explores and updates the policies at the parameter level. This class of
algorithms is widely applied in robotics with movement primitives or
non-differentiable policies. Furthermore, these approaches are particularly
relevant where exploration at the action level could cause actuator damage or
other safety issues. However, Black-box optimization does not scale well with
the increasing dimensionality of the policy, leading to high demand for
samples, which are expensive to obtain in real-world systems. In many practical
applications, policy parameters do not contribute equally to the return.
Identifying the most relevant parameters allows to narrow down the exploration
and speed up the learning. Furthermore, updating only the effective parameters
requires fewer samples, improving the scalability of the method. We present a
novel method to prioritize the exploration of effective parameters and cope
with full covariance matrix updates. Our algorithm learns faster than recent
approaches and requires fewer samples to achieve state-of-the-art results. To
select the effective parameters, we consider both the Pearson correlation
coefficient and the Mutual Information. We showcase the capabilities of our
approach on the Relative Entropy Policy Search algorithm in several simulated
environments, including robotics simulations. Code is available at
https://git.ias.informatik.tu-darmstadt.de/ias\_code/aistats2022/dr-creps}{git.ias.informatik.tu-darmstadt.de/ias\_code/aistats2022/dr-creps.
- Abstract(参考訳): Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
このタイプのアルゴリズムは、運動プリミティブや微分不可能なポリシーを持つロボット工学に広く応用されている。
さらに、これらのアプローチは、動作レベルでの探索がアクチュエータの損傷や他の安全性問題を引き起こす可能性がある場合に特に関係している。
しかし、ブラックボックス最適化はポリシーの寸法が増加するとうまくスケールしないため、実世界のシステムでは入手にコストがかかるサンプルの需要が高まる。
多くの実践的応用において、ポリシーパラメータは戻り値に等しく寄与しない。
最も関連するパラメータを特定することで、探索を狭め、学習をスピードアップすることができる。
さらに、有効なパラメータのみを更新するにはサンプルが少ないため、メソッドのスケーラビリティが向上する。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
アルゴリズムは最近のアプローチよりも高速に学習し,最新の結果を得るためにはサンプル数が少なくなる。
効果的なパラメータを選択するために,ピアソン相関係数と相互情報について検討する。
本稿では,ロボットシミュレーションを含む複数のシミュレーション環境において,相対エントロピーポリシー探索アルゴリズムに対する我々のアプローチの能力を紹介する。
コードはhttps://git.ias.informatik.tu-darmstadt.de/ias\_code/aistats2022/dr-creps}{git.ias.informatik.tu-darmstadt.de/ias\_code/aistats2022/dr-crepsで入手できる。
関連論文リスト
- Augmented Bayesian Policy Search [14.292685001631945]
実際には、探索は主に決定論的な政策によって行われる。
第一次ベイズ最適化(BO)法は、決定論的ポリシーを用いた探索の原則的な方法を提供する。
確率モデルに新しい平均関数を導入する。
これにより、アクション値関数を持つBOメソッドが増大する。
論文 参考訳(メタデータ) (2024-07-05T20:56:45Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - GPU-Accelerated Policy Optimization via Batch Automatic Differentiation
of Gaussian Processes for Real-World Control [8.720903734757627]
我々は, 高速な予測サンプリング手法を利用して, 前方通過毎に軌道のバッチ処理を行うことにより, 政策最適化手法を開発した。
重機を用いた基準追従制御実験の訓練方針における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-28T09:31:15Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Robust Policy Search for Robot Navigation with Stochastic Meta-Policies [5.7871177330714145]
本研究では,ベイズ最適化の主成分を生かして,ポリシー探索アルゴリズムの様々な問題に対して堅牢性を提供する。
いくつかの手法を組み合わせて、それらの相互作用が部品の和よりもどのように機能するかを示す。
提案アルゴリズムを,ロボットアームによるオブジェクトのプッシュやローバーによる経路探索など,いくつかの最適化ベンチマークやロボットタスクにおいて,以前の結果と比較した。
論文 参考訳(メタデータ) (2020-03-02T16:30:59Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。