論文の概要: Uncertainty Aware System Identification with Universal Policies
- arxiv url: http://arxiv.org/abs/2202.05844v1
- Date: Fri, 11 Feb 2022 18:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 15:39:00.389722
- Title: Uncertainty Aware System Identification with Universal Policies
- Title(参考訳): 普遍政策による不確実性認識システム同定
- Authors: Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana and
Svetha Venkatesh
- Abstract要約: Sim2real Transferは、シミュレーションで訓練されたポリシーを、潜在的にノイズの多い現実世界環境に転送することに関心がある。
本研究では,Universal Policy Network (UPN) を用いてシミュレーション学習したタスク固有ポリシーを格納するUncertainty-aware Policy Search (UncAPS)を提案する。
次に、我々は、DRのような方法で関連するUPNポリシーを組み合わせることで、与えられた環境に対して堅牢なポリシーを構築するために、堅牢なベイズ最適化を採用する。
- 参考スコア(独自算出の注目度): 45.44896435487879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sim2real transfer is primarily concerned with transferring policies trained
in simulation to potentially noisy real world environments. A common problem
associated with sim2real transfer is estimating the real-world environmental
parameters to ground the simulated environment to. Although existing methods
such as Domain Randomisation (DR) can produce robust policies by sampling from
a distribution of parameters during training, there is no established method
for identifying the parameters of the corresponding distribution for a given
real-world setting. In this work, we propose Uncertainty-aware policy search
(UncAPS), where we use Universal Policy Network (UPN) to store
simulation-trained task-specific policies across the full range of
environmental parameters and then subsequently employ robust Bayesian
optimisation to craft robust policies for the given environment by combining
relevant UPN policies in a DR like fashion. Such policy-driven grounding is
expected to be more efficient as it estimates only task-relevant sets of
parameters. Further, we also account for the estimation uncertainties in the
search process to produce policies that are robust against both aleatoric and
epistemic uncertainties. We empirically evaluate our approach in a range of
noisy, continuous control environments, and show its improved performance
compared to competing baselines.
- Abstract(参考訳): sim2real transferは、主にシミュレーションで訓練されたポリシーを、潜在的に騒がしい実環境に転送することに関心がある。
sim2real transferに関連する一般的な問題は、実世界の環境パラメータを推定してシミュレーション環境を接地することである。
ドメインランダム化(DR)のような既存の手法は、トレーニング中にパラメータの分布からサンプリングすることで堅牢なポリシーを生成することができるが、与えられた実世界の設定に対して対応する分布のパラメータを特定するための確立された方法はない。
本研究では,Universal Policy Network (UPN) を用いて,環境パラメータの多岐にわたるシミュレーション学習されたタスク固有ポリシーを格納し,その後,ロバストなベイズ最適化を用いて,関連するUPNポリシーをDR風に組み合わせて,与えられた環境に対するロバストなポリシーを構築するUncertainty-Aware Policy Search (UncAPS)を提案する。
このようなポリシー駆動の接地は、タスク関連のパラメータセットのみを推定するので、より効率的になるだろう。
さらに,検索プロセスにおける不確実性の評価も考慮し,失語症とてんかんの双方に対して堅牢なポリシーを作成する。
我々は,ノイズの多い連続制御環境でのアプローチを実証的に評価し,その性能を競合するベースラインと比較した。
関連論文リスト
- Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Wasserstein Distributionally Robust Policy Evaluation and Learning for
Contextual Bandits [18.982448033389588]
オフ政治評価と学習は、与えられた政策を評価し、環境と直接対話することなくオフラインデータから最適な政策を学ぶことに関するものである。
学習と実行における異なる環境の影響を考慮するため,分散ロバスト最適化法(DRO)が開発されている。
代わりにワッサーシュタイン距離を用いた新しいDRO手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T20:21:46Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Max-Min Off-Policy Actor-Critic Method Focusing on Worst-Case Robustness
to Model Misspecification [22.241676350331968]
本研究は,不確実性パラメータを含むシミュレーション環境とその可能な値の集合を含むシナリオに焦点を当てる。
本研究の目的は,不確実性パラメータセット上での最悪の性能を最適化し,対応する実環境における性能を保証することである。
マルチジョイント・ダイナミックスと接触(MuJoCo)環境の実験により,提案手法は複数のベースライン・アプローチに比較して最悪の性能を示した。
論文 参考訳(メタデータ) (2022-11-07T10:18:31Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。