論文の概要: Distilled Domain Randomization
- arxiv url: http://arxiv.org/abs/2112.03149v1
- Date: Mon, 6 Dec 2021 16:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 18:30:47.663838
- Title: Distilled Domain Randomization
- Title(参考訳): 蒸留ドメインランダム化
- Authors: Julien Brosseit, Benedikt Hahner, Fabio Muratore, Michael Gienger, Jan
Peters
- Abstract要約: 本稿では,無作為な物理シミュレーションからの強化学習と政策蒸留を組み合わせることを提案する。
我々のアルゴリズムはDistilled Domain Randomization (DiDoR)と呼ばれ、ドメインの専門家であるいわゆる教師ポリシーを蒸留する。
このようにして、DiDoRは、ターゲットドメインからのデータを必要とせずに、シミュレーションから現実へ直接移行するコントローラを学習する。
- 参考スコア(独自算出の注目度): 23.178141671320436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning is an effective tool to learn robot control
policies from scratch. However, these methods are notorious for the enormous
amount of required training data which is prohibitively expensive to collect on
real robots. A highly popular alternative is to learn from simulations,
allowing to generate the data much faster, safer, and cheaper. Since all
simulators are mere models of reality, there are inevitable differences between
the simulated and the real data, often referenced as the 'reality gap'. To
bridge this gap, many approaches learn one policy from a distribution over
simulators. In this paper, we propose to combine reinforcement learning from
randomized physics simulations with policy distillation. Our algorithm, called
Distilled Domain Randomization (DiDoR), distills so-called teacher policies,
which are experts on domains that have been sampled initially, into a student
policy that is later deployed. This way, DiDoR learns controllers which
transfer directly from simulation to reality, i.e., without requiring data from
the target domain. We compare DiDoR against three baselines in three sim-to-sim
as well as two sim-to-real experiments. Our results show that the target domain
performance of policies trained with DiDoR is en par or better than the
baselines'. Moreover, our approach neither increases the required memory
capacity nor the time to compute an action, which may well be a point of
failure for successfully deploying the learned controller.
- Abstract(参考訳): 深層強化学習は、ロボットの制御ポリシーをスクラッチから学習する効果的なツールである。
しかし、これらの手法は、実際のロボットで収集するのが違法に高価である大量の訓練データで悪名高い。
非常に人気のある代替手段はシミュレーションから学び、より高速で安全で安価にデータを生成できるようにすることである。
全てのシミュレータは単なる現実のモデルであるため、シミュレーションと実際のデータの間には必然的な違いがあり、しばしば「現実ギャップ」と呼ばれる。
このギャップを埋めるために、多くのアプローチはシミュレータ上の分布から一つのポリシーを学ぶ。
本稿では,ランダム化物理シミュレーションによる強化学習と政策蒸留を組み合わせることを提案する。
我々のアルゴリズムはDistilled Domain Randomization (DiDoR)と呼ばれ、最初にサンプリングされたドメインの専門家であるいわゆる教師ポリシーを、後に展開された学生ポリシーに蒸留する。
このようにして、DiDoRは、シミュレーションから現実へ直接転送するコントローラ、すなわち、ターゲットドメインからのデータを必要とせずに学習する。
didorを3つのsim-to-simおよび2つのsim-to-real実験で3つのベースラインと比較した。
以上の結果から,DiDoRでトレーニングしたポリシのターゲットドメイン性能は,ベースラインよりも同等かそれ以上であることがわかった。
さらに,本手法では,必要なメモリ容量や処理時間も向上せず,学習したコントローラのデプロイに失敗する可能性がある。
関連論文リスト
- Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial
Application Case on Autonomous Disassembly [55.41644538483948]
我々は,点クラウドデータにsim2realTransfer Learningを用いた産業アプリケーションケースを提案する。
合成ポイントクラウドデータの生成と処理方法に関する洞察を提供する。
この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。
論文 参考訳(メタデータ) (2023-01-12T14:00:37Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - Sim2Sim Evaluation of a Novel Data-Efficient Differentiable Physics
Engine for Tensegrity Robots [10.226310620727942]
シミュレーションにおける学習ポリシーは、ロボットコントローラーを訓練する際の人間の労力を減らすことを約束している。
Sim2realのギャップは、シミュレーションから本物のロボットへのポリシーの転送に成功するための主要な障壁である。
この研究は、データ駆動のエンドツーエンドの微分可能シミュレータを提案する。
論文 参考訳(メタデータ) (2020-11-10T06:19:54Z) - Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a
Survey [0.07366405857677225]
深層強化学習におけるsim-to-realトランスファーの背景について述べる。
本稿では,ドメインランダム化,ドメイン適応,模倣学習,メタラーニング,知識蒸留の3つの主要な手法について概説する。
論文 参考訳(メタデータ) (2020-09-24T21:05:46Z) - Trade-off on Sim2Real Learning: Real-world Learning Faster than
Simulations [1.949912057689623]
我々は,Deep Bayesian LearningアルゴリズムとモデルのないDRLアルゴリズムを比較し,シミュレーションと実世界の実験から得られた結果を分析した。
SimとReal Learningを検討中,本実験では,計算時間を考慮した場合においても,サンプル効率のよいディープベイズRLの性能がDRLより優れていることを示した。
論文 参考訳(メタデータ) (2020-07-21T09:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。