論文の概要: Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement
Learning with Domain Randomization
- arxiv url: http://arxiv.org/abs/2207.14561v1
- Date: Fri, 29 Jul 2022 09:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:25:57.880806
- Title: Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement
Learning with Domain Randomization
- Title(参考訳): 循環政策蒸留:サンプル効率の良いsim-to-real強化学習とドメインランダム化
- Authors: Yuki Kadokawa, Lingwei Zhu, Yoshihisa Tsurumine, Takamitsu Matsubara
- Abstract要約: 深層強化学習は、ランダム化された物理モデルとセンサーモデルパラメータを持つ様々なシミュレーションで制御ポリシーを学習し、現実世界に転送できる。
循環政策蒸留(CPD)という試料効率の高い方法を提案する。
CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。
学習された全ての地域政策は、シム・トゥ・リアル・トランスファーのグローバル・ポリシーに蒸留される。
- 参考スコア(独自算出の注目度): 10.789649934346004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning with domain randomization learns a control policy
in various simulations with randomized physical and sensor model parameters to
become transferable to the real world in a zero-shot setting. However, a huge
number of samples are often required to learn an effective policy when the
range of randomized parameters is extensive due to the instability of policy
updates. To alleviate this problem, we propose a sample-efficient method named
Cyclic Policy Distillation (CPD). CPD divides the range of randomized
parameters into several small sub-domains and assigns a local policy to each
sub-domain. Then, the learning of local policies is performed while {\it
cyclically} transitioning the target sub-domain to neighboring sub-domains and
exploiting the learned values/policies of the neighbor sub-domains with a
monotonic policy-improvement scheme. Finally, all of the learned local policies
are distilled into a global policy for sim-to-real transfer. The effectiveness
and sample efficiency of CPD are demonstrated through simulations with four
tasks (Pendulum from OpenAIGym and Pusher, Swimmer, and HalfCheetah from
Mujoco), and a real-robot ball-dispersal task.
- Abstract(参考訳): ドメインランダム化による深層強化学習は、ランダム化された物理モデルとセンサーモデルパラメータを持つ様々なシミュレーションにおいて制御ポリシーを学習し、ゼロショット設定で現実世界に転送できる。
しかしながら、ポリシー更新の不安定性のため、ランダム化されたパラメータの範囲が広範囲である場合、効果的なポリシーを学ぶために多くのサンプルが必要となる。
この問題を軽減するために,循環政策蒸留法 (CPD) という試料効率の高い手法を提案する。
CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。
次に、対象のサブドメインを隣のサブドメインに周期的に移行させ、隣接するサブドメインの学習値や政策を単調なポリシー改善スキームで活用しながら、ローカルポリシーの学習を行う。
最後に、学習されたすべての地域政策は、sim-to-real転送のためのグローバルポリシーに蒸留される。
4つのタスク(openaigym と pusher のペンデュラム、mujoco のスイマー、ハーフチーター)と実際のロボットボール分散タスクを用いて、cpdの有効性とサンプル効率を実証した。
関連論文リスト
- BayRnTune: Adaptive Bayesian Domain Randomization via Strategic
Fine-tuning [30.753772054098526]
ドメインランダム化(DR)は、ランダム化されたダイナミクスによるポリシーのトレーニングを必要とする。
BayRnTuneは、これまで学んだポリシーを微調整することによって、学習プロセスの大幅な高速化を目指している。
論文 参考訳(メタデータ) (2023-10-16T17:32:23Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Dimensionality Reduction and Prioritized Exploration for Policy Search [29.310742141970394]
Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
論文 参考訳(メタデータ) (2022-03-09T15:17:09Z) - Uncertainty Aware System Identification with Universal Policies [45.44896435487879]
Sim2real Transferは、シミュレーションで訓練されたポリシーを、潜在的にノイズの多い現実世界環境に転送することに関心がある。
本研究では,Universal Policy Network (UPN) を用いてシミュレーション学習したタスク固有ポリシーを格納するUncertainty-aware Policy Search (UncAPS)を提案する。
次に、我々は、DRのような方法で関連するUPNポリシーを組み合わせることで、与えられた環境に対して堅牢なポリシーを構築するために、堅牢なベイズ最適化を採用する。
論文 参考訳(メタデータ) (2022-02-11T18:27:23Z) - Bingham Policy Parameterization for 3D Rotations in Reinforcement
Learning [95.00518278458908]
強化学習における3次元回転を表現するための新しいポリシーパラメータ化を提案する。
提案したビンガムポリシパラメータ化(BPP)は,ビンガム分布をモデル化し,より良好な回転予測を可能にする。
我々は,ローテーションワフバ問題タスクのBPPと,RLBenchの視覚に基づくロボット操作タスクのセットを評価した。
論文 参考訳(メタデータ) (2022-02-08T16:09:02Z) - Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。
ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。
実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:55Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Data-efficient Domain Randomization with Bayesian Optimization [34.854609756970305]
ロボット制御のためのポリシーを学ぶとき、必要となる現実世界のデータは通常、入手するのに極めて高価である。
BayRnはブラックボックスのsim-to-realアルゴリズムであり、ドメインパラメータ分布を適応させることでタスクを効率的に解く。
以上の結果から,BayRnは,必要となる事前知識を著しく低減しつつ,シム・トゥ・リアル・トランスファーを行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2020-03-05T07:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。