論文の概要: Robust Policy Search for Robot Navigation
- arxiv url: http://arxiv.org/abs/2003.01000v2
- Date: Tue, 28 Jan 2025 15:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 22:09:10.770148
- Title: Robust Policy Search for Robot Navigation
- Title(参考訳): ロボットナビゲーションのためのロバストポリシー探索
- Authors: Javier Garcia-Barcos, Ruben Martinez-Cantin,
- Abstract要約: 複雑なロボットナビゲーションと制御問題は、ポリシー探索問題としてフレーム化することができる。
本研究では、ロバストな最適化と統計的ロバスト性の両方を取り入れ、どちらのタイプのロバスト性も相乗的であることを示す。
本稿では,いくつかのベンチマークとロボットタスクにおいて,モデル誤差を補足してもコンバージェンス保証と性能向上を実現することを目的とした。
- 参考スコア(独自算出の注目度): 3.130722489512822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex robot navigation and control problems can be framed as policy search problems. However, interactive learning in uncertain environments can be expensive, requiring the use of data-efficient methods. Bayesian optimization is an efficient nonlinear optimization method where queries are carefully selected to gather information about the optimum location. This is achieved by a surrogate model, which encodes past information, and the acquisition function for query selection. Bayesian optimization can be very sensitive to uncertainty in the input data or prior assumptions. In this work, we incorporate both robust optimization and statistical robustness, showing that both types of robustness are synergistic. For robust optimization we use an improved version of unscented Bayesian optimization which provides safe and repeatable policies in the presence of policy uncertainty. We also provide new theoretical insights. For statistical robustness, we use an adaptive surrogate model and we introduce the Boltzmann selection as a stochastic acquisition method to have convergence guarantees and improved performance even with surrogate modeling errors. We present results in several optimization benchmarks and robot tasks.
- Abstract(参考訳): 複雑なロボットナビゲーションと制御問題は、ポリシー探索問題としてフレーム化することができる。
しかし、不確実な環境での対話型学習は高価であり、データ効率のよい手法が必要とされる。
ベイズ最適化は、最適な位置に関する情報を集めるために、クエリを慎重に選択する効率的な非線形最適化手法である。
これは過去の情報をエンコードする代理モデルと、クエリ選択のための取得機能によって実現される。
ベイズ最適化は入力データや事前の仮定の不確実性に非常に敏感である。
本研究では、ロバストな最適化と統計的ロバスト性の両方を取り入れ、どちらのタイプのロバスト性も相乗的であることを示す。
堅牢な最適化のために、ポリシーの不確実性が存在する場合に安全かつ繰り返し可能なポリシーを提供する、無意味なベイズ最適化の改良版を使用します。
新たな理論的な洞察も提供します。
統計的ロバスト性には適応的な代理モデルを用い,確率的獲得法としてボルツマン選択を導入する。
いくつかの最適化ベンチマークとロボットタスクで結果を示す。
関連論文リスト
- Robust Entropy Search for Safe Efficient Bayesian Optimization [40.56709991743249]
我々は、ロバスト・エントロピー・サーチ(RES)と呼ばれる効率的な情報ベース獲得機能を開発する。
RESは、堅牢で最先端のアルゴリズムよりも確実に最適である。
論文 参考訳(メタデータ) (2024-05-29T13:00:10Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Towards Safe Multi-Task Bayesian Optimization [1.3654846342364308]
システムの物理モデルを減らすことは最適化プロセスに組み込むことができ、それを加速することができる。
これらのモデルは実際のシステムの近似を提供することができ、それらの評価は極めて安価である。
安全はベイズ最適化のようなオンライン最適化手法にとって重要な基準である。
論文 参考訳(メタデータ) (2023-12-12T13:59:26Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies [0.0]
ポリシー最適化は、タスク固有の目的の関数としてロボットポリシーを適用するための、事実上のパラダイムである。
本稿では,最適輸送問題として政策最適化を適用することで,確率的政策の構造を活用することを提案する。
我々は,ロボットの動作の到達,衝突回避行動,マルチゴールタスクなど,一般的なロボット設定に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-17T17:48:24Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Bayesian Optimization with Informative Covariance [13.113313427848828]
探索空間の特定の領域の好みを符号化するために,非定常性を利用した新しい情報共分散関数を提案する。
提案した関数は,より弱い事前情報の下でも,ハイ次元でのベイズ最適化のサンプル効率を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-08-04T15:05:11Z) - Tensor Train for Global Optimization Problems in Robotics [6.702251803443858]
多くの数値最適化手法の収束は、解法に与えられる初期推定に大きく依存する。
本稿では,グローバルオプティマ付近で既存の最適化解法を初期化するための手法を用いた新しい手法を提案する。
提案手法は,グローバル・オプティマに近づいたサンプルを複数モードで生成できることを示す。
論文 参考訳(メタデータ) (2022-06-10T13:18:26Z) - Dimensionality Reduction and Prioritized Exploration for Policy Search [29.310742141970394]
Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
論文 参考訳(メタデータ) (2022-03-09T15:17:09Z) - A Robust Multi-Objective Bayesian Optimization Framework Considering
Input Uncertainty [0.0]
エンジニアリング設計のような現実的なアプリケーションでは、設計者は複数の目的と入力の不確実性を考慮に入れたい場合が多い。
入力の不確実性を考慮した多目的最適化を効率的に行うための新しいベイズ最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-25T17:45:26Z) - Bayesian Optimization for auto-tuning GPU kernels [0.0]
GPUカーネルの最適パラメータ設定を見つけることは、たとえ自動化されても、大規模な検索スペースにとって簡単な作業ではない。
拡張性を改善した新しい文脈探索機能と,情報機能選択機構を併用した新しい獲得機能を導入する。
論文 参考訳(メタデータ) (2021-11-26T11:26:26Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Approximate Bayesian Optimisation for Neural Networks [6.921210544516486]
モデル選択の重要性を強調するために、機械学習アルゴリズムを自動化するための一連の作業が行われた。
理想主義的な方法で解析的トラクタビリティと計算可能性を解決する必要性は、効率と適用性を確保することを可能にしている。
論文 参考訳(メタデータ) (2021-08-27T19:03:32Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z) - Bilevel Optimization for Differentially Private Optimization in Energy
Systems [53.806512366696275]
本稿では,入力に敏感な制約付き最適化問題に対して,差分プライバシーを適用する方法について検討する。
本稿は, 自然仮定の下では, 大規模非線形最適化問題に対して, 双レベルモデルを効率的に解けることを示す。
論文 参考訳(メタデータ) (2020-01-26T20:15:28Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。