論文の概要: Data-efficient Domain Randomization with Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2003.02471v4
- Date: Tue, 5 Jan 2021 17:06:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 06:23:22.238734
- Title: Data-efficient Domain Randomization with Bayesian Optimization
- Title(参考訳): ベイズ最適化によるデータ効率のよい領域ランダム化
- Authors: Fabio Muratore and Christian Eilers and Michael Gienger and Jan Peters
- Abstract要約: ロボット制御のためのポリシーを学ぶとき、必要となる現実世界のデータは通常、入手するのに極めて高価である。
BayRnはブラックボックスのsim-to-realアルゴリズムであり、ドメインパラメータ分布を適応させることでタスクを効率的に解く。
以上の結果から,BayRnは,必要となる事前知識を著しく低減しつつ,シム・トゥ・リアル・トランスファーを行うことが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 34.854609756970305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When learning policies for robot control, the required real-world data is
typically prohibitively expensive to acquire, so learning in simulation is a
popular strategy. Unfortunately, such polices are often not transferable to the
real world due to a mismatch between the simulation and reality, called
'reality gap'. Domain randomization methods tackle this problem by randomizing
the physics simulator (source domain) during training according to a
distribution over domain parameters in order to obtain more robust policies
that are able to overcome the reality gap. Most domain randomization approaches
sample the domain parameters from a fixed distribution. This solution is
suboptimal in the context of sim-to-real transferability, since it yields
policies that have been trained without explicitly optimizing for the reward on
the real system (target domain). Additionally, a fixed distribution assumes
there is prior knowledge about the uncertainty over the domain parameters. In
this paper, we propose Bayesian Domain Randomization (BayRn), a black-box
sim-to-real algorithm that solves tasks efficiently by adapting the domain
parameter distribution during learning given sparse data from the real-world
target domain. BayRn uses Bayesian optimization to search the space of source
domain distribution parameters such that this leads to a policy which maximizes
the real-word objective, allowing for adaptive distributions during policy
optimization. We experimentally validate the proposed approach in sim-to-sim as
well as in sim-to-real experiments, comparing against three baseline methods on
two robotic tasks. Our results show that BayRn is able to perform sim-to-real
transfer, while significantly reducing the required prior knowledge.
- Abstract(参考訳): ロボット制御のための学習方針では、必要な現実世界のデータを取得するのに通常コストがかかるため、シミュレーションによる学習は一般的な戦略である。
残念なことに、こうした警察は「現実ギャップ」と呼ばれるシミュレーションと現実のミスマッチのため、現実の世界に移動できないことが多い。
領域ランダム化法は、現実のギャップを克服できるより堅牢なポリシーを得るために、領域パラメータの分布に応じて、トレーニング中に物理シミュレータ(ソースドメイン)をランダム化することでこの問題に対処する。
ほとんどのドメインランダム化は固定分布からドメインパラメータをサンプリングする。
このソリューションは、実システム(ターゲットドメイン)の報酬を明示的に最適化せずにトレーニングされたポリシーを生成するため、sim-to-real転送可能性の文脈では最適ではない。
さらに、固定分布は、ドメインパラメータに対する不確実性に関する事前の知識があると仮定する。
本稿では,実世界の対象領域から与えられたスパースデータを学習する際に,領域パラメータ分布を適応させることにより,タスクを効率的に解決するブラックボックス・シム・トゥ・リアルアルゴリズムBayRnを提案する。
bayrnはベイズ最適化を使用して、ソースドメインの分散パラメータの空間を探索し、リアルワードの目的を最大化するポリシーにつながり、ポリシー最適化中に適応分布を可能にする。
2つのロボット作業における3つのベースライン手法と比較して,sim-to-simおよびsim-to-real実験において提案手法を実験的に検証した。
以上の結果から,bayrnは事前知識を著しく削減しつつ,sim-to-real転送が可能であることが示された。
関連論文リスト
- BayRnTune: Adaptive Bayesian Domain Randomization via Strategic
Fine-tuning [30.753772054098526]
ドメインランダム化(DR)は、ランダム化されたダイナミクスによるポリシーのトレーニングを必要とする。
BayRnTuneは、これまで学んだポリシーを微調整することによって、学習プロセスの大幅な高速化を目指している。
論文 参考訳(メタデータ) (2023-10-16T17:32:23Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。
本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。
もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文 参考訳(メタデータ) (2022-08-18T06:42:49Z) - Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement
Learning with Domain Randomization [10.789649934346004]
循環政策蒸留法(CPD)という試料効率の高い手法を提案する。
CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。
学習された全ての地域政策は、シム・トゥ・リアル・トランスファーのグローバル・ポリシーに蒸留される。
論文 参考訳(メタデータ) (2022-07-29T09:22:53Z) - Source-Free Domain Adaptation via Distribution Estimation [106.48277721860036]
ドメイン適応は、ラベル付きソースドメインから学んだ知識を、データ分散が異なるラベル付きターゲットドメインに転送することを目的としています。
近年,ソースフリードメイン適応 (Source-Free Domain Adaptation, SFDA) が注目されている。
本研究では,SFDA-DEと呼ばれる新しいフレームワークを提案し,ソース分布推定によるSFDAタスクに対処する。
論文 参考訳(メタデータ) (2022-04-24T12:22:19Z) - DROPO: Sim-to-Real Transfer with Offline Domain Randomization [12.778412161239466]
DROPOは、安全なsim-to-real転送のための領域ランダム化分布を推定する新しい手法である。
本研究では,DROPOがシミュレーション中の動的パラメータ分布を復元し,非モデル化現象を補償できる分布を求めることを実証する。
論文 参考訳(メタデータ) (2022-01-20T20:03:35Z) - Understanding Domain Randomization for Sim-to-real Transfer [41.33483293243257]
本稿では,シミュレータを調整可能なパラメータを持つMDPの集合としてモデル化する,sim-to-realトランスファーの理論的枠組みを提案する。
実世界のトレーニングサンプルを使わずに, 穏やかな条件下で, sim-to-realトランスファーが成功できることを実証する。
論文 参考訳(メタデータ) (2021-10-07T07:45:59Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。
ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。
実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:55Z) - Policy Transfer via Kinematic Domain Randomization and Adaptation [22.038635244802798]
パラメータ選択のランダム化が、異なるタイプのドメイン間のポリシー伝達性に与える影響について検討する。
そこで本研究では,シミュレートされた運動パラメータの変動を利用した新しい領域適応アルゴリズムを提案する。
本研究は,5つの異なるターゲット環境において,シミュレーションされた四足歩行ロボットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-11-03T18:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。