論文の概要: Distilled Domain Randomization
- arxiv url: http://arxiv.org/abs/2112.03149v1
- Date: Mon, 6 Dec 2021 16:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 18:30:47.663838
- Title: Distilled Domain Randomization
- Title(参考訳): 蒸留ドメインランダム化
- Authors: Julien Brosseit, Benedikt Hahner, Fabio Muratore, Michael Gienger, Jan
Peters
- Abstract要約: 本稿では,無作為な物理シミュレーションからの強化学習と政策蒸留を組み合わせることを提案する。
我々のアルゴリズムはDistilled Domain Randomization (DiDoR)と呼ばれ、ドメインの専門家であるいわゆる教師ポリシーを蒸留する。
このようにして、DiDoRは、ターゲットドメインからのデータを必要とせずに、シミュレーションから現実へ直接移行するコントローラを学習する。
- 参考スコア(独自算出の注目度): 23.178141671320436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning is an effective tool to learn robot control
policies from scratch. However, these methods are notorious for the enormous
amount of required training data which is prohibitively expensive to collect on
real robots. A highly popular alternative is to learn from simulations,
allowing to generate the data much faster, safer, and cheaper. Since all
simulators are mere models of reality, there are inevitable differences between
the simulated and the real data, often referenced as the 'reality gap'. To
bridge this gap, many approaches learn one policy from a distribution over
simulators. In this paper, we propose to combine reinforcement learning from
randomized physics simulations with policy distillation. Our algorithm, called
Distilled Domain Randomization (DiDoR), distills so-called teacher policies,
which are experts on domains that have been sampled initially, into a student
policy that is later deployed. This way, DiDoR learns controllers which
transfer directly from simulation to reality, i.e., without requiring data from
the target domain. We compare DiDoR against three baselines in three sim-to-sim
as well as two sim-to-real experiments. Our results show that the target domain
performance of policies trained with DiDoR is en par or better than the
baselines'. Moreover, our approach neither increases the required memory
capacity nor the time to compute an action, which may well be a point of
failure for successfully deploying the learned controller.
- Abstract(参考訳): 深層強化学習は、ロボットの制御ポリシーをスクラッチから学習する効果的なツールである。
しかし、これらの手法は、実際のロボットで収集するのが違法に高価である大量の訓練データで悪名高い。
非常に人気のある代替手段はシミュレーションから学び、より高速で安全で安価にデータを生成できるようにすることである。
全てのシミュレータは単なる現実のモデルであるため、シミュレーションと実際のデータの間には必然的な違いがあり、しばしば「現実ギャップ」と呼ばれる。
このギャップを埋めるために、多くのアプローチはシミュレータ上の分布から一つのポリシーを学ぶ。
本稿では,ランダム化物理シミュレーションによる強化学習と政策蒸留を組み合わせることを提案する。
我々のアルゴリズムはDistilled Domain Randomization (DiDoR)と呼ばれ、最初にサンプリングされたドメインの専門家であるいわゆる教師ポリシーを、後に展開された学生ポリシーに蒸留する。
このようにして、DiDoRは、シミュレーションから現実へ直接転送するコントローラ、すなわち、ターゲットドメインからのデータを必要とせずに学習する。
didorを3つのsim-to-simおよび2つのsim-to-real実験で3つのベースラインと比較した。
以上の結果から,DiDoRでトレーニングしたポリシのターゲットドメイン性能は,ベースラインよりも同等かそれ以上であることがわかった。
さらに,本手法では,必要なメモリ容量や処理時間も向上せず,学習したコントローラのデプロイに失敗する可能性がある。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial
Application Case on Autonomous Disassembly [55.41644538483948]
我々は,点クラウドデータにsim2realTransfer Learningを用いた産業アプリケーションケースを提案する。
合成ポイントクラウドデータの生成と処理方法に関する洞察を提供する。
この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。
論文 参考訳(メタデータ) (2023-01-12T14:00:37Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - Sim2Sim Evaluation of a Novel Data-Efficient Differentiable Physics
Engine for Tensegrity Robots [10.226310620727942]
シミュレーションにおける学習ポリシーは、ロボットコントローラーを訓練する際の人間の労力を減らすことを約束している。
Sim2realのギャップは、シミュレーションから本物のロボットへのポリシーの転送に成功するための主要な障壁である。
この研究は、データ駆動のエンドツーエンドの微分可能シミュレータを提案する。
論文 参考訳(メタデータ) (2020-11-10T06:19:54Z) - Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a
Survey [0.07366405857677225]
深層強化学習におけるsim-to-realトランスファーの背景について述べる。
本稿では,ドメインランダム化,ドメイン適応,模倣学習,メタラーニング,知識蒸留の3つの主要な手法について概説する。
論文 参考訳(メタデータ) (2020-09-24T21:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。