論文の概要: Policy Transfer via Kinematic Domain Randomization and Adaptation
- arxiv url: http://arxiv.org/abs/2011.01891v3
- Date: Thu, 1 Apr 2021 19:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 06:29:12.713251
- Title: Policy Transfer via Kinematic Domain Randomization and Adaptation
- Title(参考訳): キネマティックドメインランダム化と適応による政策伝達
- Authors: Ioannis Exarchos, Yifeng Jiang, Wenhao Yu, C. Karen Liu
- Abstract要約: パラメータ選択のランダム化が、異なるタイプのドメイン間のポリシー伝達性に与える影響について検討する。
そこで本研究では,シミュレートされた運動パラメータの変動を利用した新しい領域適応アルゴリズムを提案する。
本研究は,5つの異なるターゲット環境において,シミュレーションされた四足歩行ロボットを用いて実験を行った。
- 参考スコア(独自算出の注目度): 22.038635244802798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring reinforcement learning policies trained in physics simulation to
the real hardware remains a challenge, known as the "sim-to-real" gap. Domain
randomization is a simple yet effective technique to address dynamics
discrepancies across source and target domains, but its success generally
depends on heuristics and trial-and-error. In this work we investigate the
impact of randomized parameter selection on policy transferability across
different types of domain discrepancies. Contrary to common practice in which
kinematic parameters are carefully measured while dynamic parameters are
randomized, we found that virtually randomizing kinematic parameters (e.g.,
link lengths) during training in simulation generally outperforms dynamic
randomization. Based on this finding, we introduce a new domain adaptation
algorithm that utilizes simulated kinematic parameters variation. Our
algorithm, Multi-Policy Bayesian Optimization, trains an ensemble of universal
policies conditioned on virtual kinematic parameters and efficiently adapts to
the target environment using a limited number of target domain rollouts. We
showcase our findings on a simulated quadruped robot in five different target
environments covering different aspects of domain discrepancies.
- Abstract(参考訳): 物理シミュレーションで訓練された強化学習ポリシーを実際のハードウェアに移すことは、"sim-to-real"ギャップとして知られる課題である。
ドメインのランダム化は、ソースドメインとターゲットドメイン間のダイナミクスの相違に対処するための単純かつ効果的なテクニックであるが、一般的にはヒューリスティックスと試行錯誤に依存する。
本研究では,パラメータ選択のランダム化が,異なるタイプのドメイン間のポリシー伝達性に与える影響について検討する。
動的パラメータがランダム化されている間、運動パラメータを慎重に測定する一般的な実践とは対照的に、シミュレーションにおけるトレーニング中の仮想ランダム化(リンク長など)は、一般的に動的ランダム化よりも優れている。
そこで本研究では,シミュレーションキネマティックパラメータの変動を利用した新しい領域適応アルゴリズムを提案する。
我々のアルゴリズムであるMulti-Policy Bayesian Optimizationは、仮想キネマティックパラメータに条件付きユニバーサルポリシーのアンサンブルを訓練し、限られた数のターゲットドメインロールアウトを用いてターゲット環境に効率的に適応する。
本研究は,ドメインの相違点を網羅する5つの異なるターゲット環境において,擬似四足歩行ロボットを用いた実験を行った。
関連論文リスト
- OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - BayRnTune: Adaptive Bayesian Domain Randomization via Strategic
Fine-tuning [30.753772054098526]
ドメインランダム化(DR)は、ランダム化されたダイナミクスによるポリシーのトレーニングを必要とする。
BayRnTuneは、これまで学んだポリシーを微調整することによって、学習プロセスの大幅な高速化を目指している。
論文 参考訳(メタデータ) (2023-10-16T17:32:23Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Data-efficient Domain Randomization with Bayesian Optimization [34.854609756970305]
ロボット制御のためのポリシーを学ぶとき、必要となる現実世界のデータは通常、入手するのに極めて高価である。
BayRnはブラックボックスのsim-to-realアルゴリズムであり、ドメインパラメータ分布を適応させることでタスクを効率的に解く。
以上の結果から,BayRnは,必要となる事前知識を著しく低減しつつ,シム・トゥ・リアル・トランスファーを行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2020-03-05T07:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。