論文の概要: Robust Policy Search for Robot Navigation with Stochastic Meta-Policies
- arxiv url: http://arxiv.org/abs/2003.01000v1
- Date: Mon, 2 Mar 2020 16:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:31:17.616266
- Title: Robust Policy Search for Robot Navigation with Stochastic Meta-Policies
- Title(参考訳): 確率的メタポリシーを用いたロボットナビゲーションのロバストポリシー探索
- Authors: Javier Garcia-Barcos, Ruben Martinez-Cantin
- Abstract要約: 本研究では,ベイズ最適化の主成分を生かして,ポリシー探索アルゴリズムの様々な問題に対して堅牢性を提供する。
いくつかの手法を組み合わせて、それらの相互作用が部品の和よりもどのように機能するかを示す。
提案アルゴリズムを,ロボットアームによるオブジェクトのプッシュやローバーによる経路探索など,いくつかの最適化ベンチマークやロボットタスクにおいて,以前の結果と比較した。
- 参考スコア(独自算出の注目度): 5.7871177330714145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian optimization is an efficient nonlinear optimization method where the
queries are carefully selected to gather information about the optimum
location. Thus, in the context of policy search, it has been called active
policy search. The main ingredients of Bayesian optimization for sample
efficiency are the probabilistic surrogate model and the optimal decision
heuristics. In this work, we exploit those to provide robustness to different
issues for policy search algorithms. We combine several methods and show how
their interaction works better than the sum of the parts. First, to deal with
input noise and provide a safe and repeatable policy we use an improved version
of unscented Bayesian optimization. Then, to deal with mismodeling errors and
improve exploration we use stochastic meta-policies for query selection and an
adaptive kernel. We compare the proposed algorithm with previous results in
several optimization benchmarks and robot tasks, such as pushing objects with a
robot arm, or path finding with a rover.
- Abstract(参考訳): ベイズ最適化は、最適な位置に関する情報を集めるためにクエリを慎重に選択する効率的な非線形最適化手法である。
したがって、政策検索の文脈では、アクティブポリシー検索(active policy search)と呼ばれる。
サンプル効率に対するベイズ最適化の主な要素は確率的代理モデルと最適決定ヒューリスティックである。
本研究では、ポリシー探索アルゴリズムの様々な問題に対して堅牢性を提供するためにそれらを利用する。
複数の方法を組み合わせて、それらの相互作用が部品の総和よりもどのように機能するかを示す。
まず、入力ノイズに対処し、安全かつ繰り返し可能なポリシーを提供するために、無意味ベイズ最適化の改良版を使用する。
そして、ミスモデリングエラーに対処し、探索を改善するために、クエリ選択と適応カーネルに確率的メタポリティシーを使用します。
提案アルゴリズムを,ロボットアームによるオブジェクトのプッシュやローバーによる経路探索など,いくつかの最適化ベンチマークやロボットタスクにおいて,以前の結果と比較した。
関連論文リスト
- Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - qPOTS: Efficient batch multiobjective Bayesian optimization via Pareto
optimal Thompson sampling [0.0]
多目的最適化を解くためのサンプル効率のアプローチはプロセス・オラクル・サロゲート (GP) を経由する。
本稿では,ランダムGPサンプルのフロンティアから新しい候補を選択する,単純かつ効果的なトンプソンサンプリングに基づくアプローチを提案する。
提案手法は, 実世界の実験だけでなく, 精度, 計算効率の両面において, 高い実験性能を示すものである。
論文 参考訳(メタデータ) (2023-10-24T12:35:15Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies [0.0]
ポリシー最適化は、タスク固有の目的の関数としてロボットポリシーを適用するための、事実上のパラダイムである。
本稿では,最適輸送問題として政策最適化を適用することで,確率的政策の構造を活用することを提案する。
我々は,ロボットの動作の到達,衝突回避行動,マルチゴールタスクなど,一般的なロボット設定に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-17T17:48:24Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Tensor Train for Global Optimization Problems in Robotics [6.702251803443858]
多くの数値最適化手法の収束は、解法に与えられる初期推定に大きく依存する。
本稿では,グローバルオプティマ付近で既存の最適化解法を初期化するための手法を用いた新しい手法を提案する。
提案手法は,グローバル・オプティマに近づいたサンプルを複数モードで生成できることを示す。
論文 参考訳(メタデータ) (2022-06-10T13:18:26Z) - Dimensionality Reduction and Prioritized Exploration for Policy Search [29.310742141970394]
Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
論文 参考訳(メタデータ) (2022-03-09T15:17:09Z) - Bayesian Optimization for auto-tuning GPU kernels [0.0]
GPUカーネルの最適パラメータ設定を見つけることは、たとえ自動化されても、大規模な検索スペースにとって簡単な作業ではない。
拡張性を改善した新しい文脈探索機能と,情報機能選択機構を併用した新しい獲得機能を導入する。
論文 参考訳(メタデータ) (2021-11-26T11:26:26Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Incorporating Expert Prior in Bayesian Optimisation via Space Warping [54.412024556499254]
大きな探索空間では、アルゴリズムは関数の最適値に達する前に、いくつかの低関数値領域を通過する。
このコールドスタートフェーズの1つのアプローチは、最適化を加速できる事前知識を使用することである。
本稿では,関数の事前分布を通じて,関数の最適性に関する事前知識を示す。
先行分布は、探索空間を最適関数の高確率領域の周りに拡張し、最適関数の低確率領域の周りに縮小するようにワープする。
論文 参考訳(メタデータ) (2020-03-27T06:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。