論文の概要: Local policy search with Bayesian optimization
- arxiv url: http://arxiv.org/abs/2106.11899v1
- Date: Tue, 22 Jun 2021 16:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:11:17.064196
- Title: Local policy search with Bayesian optimization
- Title(参考訳): ベイズ最適化による局所政策探索
- Authors: Sarah M\"uller, Alexander von Rohr, Sebastian Trimpe
- Abstract要約: 強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 73.0364959221845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) aims to find an optimal policy by interaction
with an environment. Consequently, learning complex behavior requires a vast
number of samples, which can be prohibitive in practice. Nevertheless, instead
of systematically reasoning and actively choosing informative samples, policy
gradients for local search are often obtained from random perturbations. These
random samples yield high variance estimates and hence are sub-optimal in terms
of sample complexity. Actively selecting informative samples is at the core of
Bayesian optimization, which constructs a probabilistic surrogate of the
objective from past samples to reason about informative subsequent ones. In
this paper, we propose to join both worlds. We develop an algorithm utilizing a
probabilistic model of the objective function and its gradient. Based on the
model, the algorithm decides where to query a noisy zeroth-order oracle to
improve the gradient estimates. The resulting algorithm is a novel type of
policy search method, which we compare to existing black-box algorithms. The
comparison reveals improved sample complexity and reduced variance in extensive
empirical evaluations on synthetic objectives. Further, we highlight the
benefits of active sampling on popular RL benchmarks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、環境との相互作用によって最適な政策を見つけることを目的とする。
したがって、複雑な振る舞いを学ぶには膨大な数のサンプルが必要です。
それにもかかわらず、体系的に推論し、積極的に情報的サンプルを選択する代わりに、局所探索のためのポリシー勾配はランダムな摂動から得られることが多い。
これらのランダムなサンプルは高い分散推定をもたらし、したがってサンプルの複雑さの点で最適である。
有益サンプルを積極的に選択することはベイズ最適化の核心であり、過去のサンプルから有益サンプルを推論するために目的の確率的サロゲートを構成する。
本稿では,両世界への参加を提案する。
対象関数とその勾配の確率モデルを用いたアルゴリズムを開発した。
このモデルに基づいて、アルゴリズムは勾配推定を改善するためにノイズの多いゼロ階のオラクルを問う場所を決定する。
得られたアルゴリズムは,既存のブラックボックスアルゴリズムと比較した,新しいタイプのポリシー探索手法である。
比較の結果, 試料の複雑さが向上し, 分散が減少した。
さらに、人気のあるRLベンチマークにおけるアクティブサンプリングの利点を強調した。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Random Exploration in Bayesian Optimization: Order-Optimal Regret and
Computational Efficiency [18.17090625880964]
本研究では,分布から引き出されたランダムサンプルを用いて領域を探索する手法について検討する。
このランダム探索手法が最適誤差率を達成することを示す。
論文 参考訳(メタデータ) (2023-10-23T20:30:44Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Adaptive Sampling Quasi-Newton Methods for Zeroth-Order Stochastic
Optimization [1.7513645771137178]
勾配情報のない制約のない最適化問題を考察する。
適応的なサンプリング準ニュートン法を提案し、共通乱数フレームワーク内の有限差を用いてシミュレーション関数の勾配を推定する。
そこで本研究では, 標準試験と内積準ニュートン試験の修正版を開発し, 近似に使用する試料サイズを制御し, 最適解の近傍に大域収束結果を与える。
論文 参考訳(メタデータ) (2021-09-24T21:49:25Z) - Towards Feature-Based Performance Regression Using Trajectory Data [0.9281671380673306]
ブラックボックス最適化は非常に活発な研究領域であり、毎年多くの新しいアルゴリズムが開発されている。
アルゴリズムの多様性はメタプロブレム(メタプロブレム):どのアルゴリズムが与えられた問題を選択するか?
過去の研究では、探索ランドスケープ分析に基づくインスタンスごとのアルゴリズム選択が、このメタプロブレムに取り組むための効率的な手段であることが示されている。
論文 参考訳(メタデータ) (2021-02-10T10:19:13Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。