論文の概要: Understanding Domain Randomization for Sim-to-real Transfer
- arxiv url: http://arxiv.org/abs/2110.03239v1
- Date: Thu, 7 Oct 2021 07:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:36:08.316316
- Title: Understanding Domain Randomization for Sim-to-real Transfer
- Title(参考訳): Sim-to-real Transferのためのドメインランダム化の理解
- Authors: Xiaoyu Chen, Jiachen Hu, Chi Jin, Lihong Li, Liwei Wang
- Abstract要約: 本稿では,シミュレータを調整可能なパラメータを持つMDPの集合としてモデル化する,sim-to-realトランスファーの理論的枠組みを提案する。
実世界のトレーニングサンプルを使わずに, 穏やかな条件下で, sim-to-realトランスファーが成功できることを実証する。
- 参考スコア(独自算出の注目度): 41.33483293243257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning encounters many challenges when applied directly in
the real world. Sim-to-real transfer is widely used to transfer the knowledge
learned from simulation to the real world. Domain randomization -- one of the
most popular algorithms for sim-to-real transfer -- has been demonstrated to be
effective in various tasks in robotics and autonomous driving. Despite its
empirical successes, theoretical understanding on why this simple algorithm
works is limited. In this paper, we propose a theoretical framework for
sim-to-real transfers, in which the simulator is modeled as a set of MDPs with
tunable parameters (corresponding to unknown physical parameters such as
friction). We provide sharp bounds on the sim-to-real gap -- the difference
between the value of policy returned by domain randomization and the value of
an optimal policy for the real world. We prove that sim-to-real transfer can
succeed under mild conditions without any real-world training samples. Our
theory also highlights the importance of using memory (i.e., history-dependent
policies) in domain randomization. Our proof is based on novel techniques that
reduce the problem of bounding the sim-to-real gap to the problem of designing
efficient learning algorithms for infinite-horizon MDPs, which we believe are
of independent interest.
- Abstract(参考訳): 強化学習は、現実世界に直接適用する場合、多くの課題に遭遇する。
sim-to-real transferはシミュレーションから学んだ知識を現実世界に移すために広く使われている。
sim-to-real転送のための最も人気のあるアルゴリズムの1つであるドメインランダム化は、ロボット工学や自動運転における様々なタスクに有効であることが示されている。
経験的な成功にもかかわらず、この単純なアルゴリズムがなぜ機能するのかの理論的な理解は限られている。
本稿では,シミュレータを調整可能なパラメータ(摩擦などの未知の物理パラメータに対応する)を持つMDPの集合としてモデル化する,SIM-to-real転送の理論的枠組みを提案する。
ドメインランダム化によって返されるポリシーの値と実世界の最適なポリシーの値との差は、sim-to-realギャップに鋭い境界を与えます。
実世界のトレーニングサンプルを使わずに, 穏やかな条件下で, sim-to-real転送が成功することを示す。
我々の理論はまた、ドメインのランダム化においてメモリ(すなわち履歴に依存したポリシー)を使うことの重要性を強調している。
我々の証明は,無限水平MDPのための効率的な学習アルゴリズムの設計問題に,sim-to-realギャップを限定する問題を低減させる新しい手法に基づくものである。
関連論文リスト
- Sim-to-real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning [15.792914346054502]
我々は、カバーパス計画(CPP)のための強化学習エージェント(RL)のSim-to-real転送の課題に取り組む。
実際のロボット運動学やリアルタイムの側面を含む、シミュレーションされたセンサーと障害物で、半仮想環境を通して、シミュレーションと現実のギャップを橋渡しする。
高速モデル推論周波数はsim-to-realギャップを減らすのに十分であり、微調整は最初は性能を劣化させる。
論文 参考訳(メタデータ) (2024-06-07T13:24:19Z) - DrEureka: Language Model Guided Sim-To-Real Transfer [64.14314476811806]
シミュレーションで学んだ政策を現実世界に伝達することは、ロボットのスキルを大規模に獲得する上で有望な戦略である。
本稿では,Large Language Models (LLMs) を用いてシム・トゥ・リアル設計の自動化と高速化を行う。
本手法では,ヨガボールの上を歩行する四足歩行や四足歩行など,新しいロボットタスクを解くことができる。
論文 参考訳(メタデータ) (2024-06-04T04:53:05Z) - TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction [25.36756787147331]
シミュレーションの学習と実世界への学習は、ジェネラリストロボットを可能にする可能性がある。
そこで本研究では,Human-in-the-loopフレームワークをベースとしたSIM-to-real転送を実現するためのデータ駆動型手法を提案する。
本手法は,家具組立などの複雑かつ接触に富んだ操作作業において,シミュレートから現実への伝達を成功させることができることを示す。
論文 参考訳(メタデータ) (2024-05-16T17:59:07Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Provable Sim-to-real Transfer in Continuous Domain with Partial
Observations [39.18274543757048]
シン・トゥ・リアル・トランスファー(英語版)は、シミュレーション環境でRLエージェントを訓練し、実世界で展開する。
実環境における最適政策と競合するシミュレートされた環境から、人気のある頑健な対人訓練アルゴリズムが、ポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-10-27T16:37:52Z) - Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。
ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。
実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:55Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - Data-efficient Domain Randomization with Bayesian Optimization [34.854609756970305]
ロボット制御のためのポリシーを学ぶとき、必要となる現実世界のデータは通常、入手するのに極めて高価である。
BayRnはブラックボックスのsim-to-realアルゴリズムであり、ドメインパラメータ分布を適応させることでタスクを効率的に解く。
以上の結果から,BayRnは,必要となる事前知識を著しく低減しつつ,シム・トゥ・リアル・トランスファーを行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2020-03-05T07:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。