論文の概要: Overcoming the Sim-to-Real Gap: Leveraging Simulation to Learn to Explore for Real-World RL
- arxiv url: http://arxiv.org/abs/2410.20254v1
- Date: Sat, 26 Oct 2024 19:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:16:07.637439
- Title: Overcoming the Sim-to-Real Gap: Leveraging Simulation to Learn to Explore for Real-World RL
- Title(参考訳): Supercoming the Sim-to-Real Gap: Leveraging Simulation to Learne for Real-World RL
- Authors: Andrew Wagenmaker, Kevin Huang, Liyiming Ke, Byron Boots, Kevin Jamieson, Abhishek Gupta,
- Abstract要約: 多くの制度において、直接シム2リアルトランスファーは失敗する可能性があるが、シミュレータを使って一連のエフェクト探索ポリシーを学習できることが示される。
特に、低ランクのMDPの設定においては、これらの探索政策と単純で実践的なアプローチが結合していることが示される。
これは、シミュレーション転送が直接sim2real転送が失敗する環境で強化学習において証明可能な利益をもたらすという最初の証拠である。
- 参考スコア(独自算出の注目度): 25.991354823569033
- License:
- Abstract: In order to mitigate the sample complexity of real-world reinforcement learning, common practice is to first train a policy in a simulator where samples are cheap, and then deploy this policy in the real world, with the hope that it generalizes effectively. Such \emph{direct sim2real} transfer is not guaranteed to succeed, however, and in cases where it fails, it is unclear how to best utilize the simulator. In this work, we show that in many regimes, while direct sim2real transfer may fail, we can utilize the simulator to learn a set of \emph{exploratory} policies which enable efficient exploration in the real world. In particular, in the setting of low-rank MDPs, we show that coupling these exploratory policies with simple, practical approaches -- least-squares regression oracles and naive randomized exploration -- yields a polynomial sample complexity in the real world, an exponential improvement over direct sim2real transfer, or learning without access to a simulator. To the best of our knowledge, this is the first evidence that simulation transfer yields a provable gain in reinforcement learning in settings where direct sim2real transfer fails. We validate our theoretical results on several realistic robotic simulators and a real-world robotic sim2real task, demonstrating that transferring exploratory policies can yield substantial gains in practice as well.
- Abstract(参考訳): 実世界の強化学習におけるサンプルの複雑さを軽減するため、まずサンプルが安価であるシミュレーターでポリシーを訓練し、その方針を現実の世界に展開し、効果的に一般化することを期待する。
このような \emph{direct sim2real} 転送は成功することが保証されていないが、失敗した場合、シミュレータを最もよく利用する方法は不明である。
本研究では,多くの制度において,直接シム2リアル移動は失敗する可能性があるが,実世界の効率的な探索を可能にする一連の「emph{exploratory}」ポリシーを学習するためにシミュレータを利用することができることを示す。
特に、低ランクのMDPの設定において、これらの探索ポリシーを、最小二乗回帰オラクルと単純で実践的なアプローチと組み合わせることで、実世界で多項式サンプルの複雑さ、直接シム2リアルトランスファーよりも指数関数的に改善したり、シミュレータにアクセスせずに学習することを示す。
我々の知る限り、これはシミュレーション転送が直接sim2real転送が失敗する環境で強化学習において証明可能な利益をもたらすという最初の証拠である。
いくつかの現実的なロボットシミュレータと実世界のロボットシム2リアルタスクに関する理論的結果を検証し、探索的ポリシの転送が実際にかなりの利益をもたらすことを実証した。
関連論文リスト
- Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning [15.792914346054502]
我々は、カバーパス計画(CPP)のための強化学習エージェント(RL)のSim-to-real転送の課題に取り組む。
シミュレーションされたセンサと障害物を利用しながら、現実のロボットやリアルタイムの側面を含む半仮想環境を通じて、シミュレートと現実のギャップを橋渡しする。
高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。
論文 参考訳(メタデータ) (2024-06-07T13:24:19Z) - DrEureka: Language Model Guided Sim-To-Real Transfer [64.14314476811806]
シミュレーションで学んだ政策を現実世界に伝達することは、ロボットのスキルを大規模に獲得する上で有望な戦略である。
本稿では,Large Language Models (LLMs) を用いてシム・トゥ・リアル設計の自動化と高速化を行う。
本手法では,ヨガボールの上を歩行する四足歩行や四足歩行など,新しいロボットタスクを解くことができる。
論文 参考訳(メタデータ) (2024-06-04T04:53:05Z) - Sim-and-Real Reinforcement Learning for Manipulation: A Consensus-based
Approach [4.684126055213616]
マニピュレータのピック・アンド・プレイスタスクのための,コンセンサスに基づくCSAR(Sim-And-Real Deep reinforcement Learning)アルゴリズムを提案する。
我々はシミュレーターと実世界のエージェントを訓練し、シミュレートと実世界の両方の最適なポリシーを得る。
論文 参考訳(メタデータ) (2023-02-26T22:27:23Z) - Zero-shot Sim2Real Adaptation Across Environments [45.44896435487879]
本稿では,実世界のシミュレートされたポリシーを模倣することを学ぶリバースアクショントランスフォーメーション(RAT)ポリシーを提案する。
RATは、新しい環境へのゼロショット適応を達成するために、Universal Policy Network上にデプロイできる。
論文 参考訳(メタデータ) (2023-02-08T11:59:07Z) - Provable Sim-to-real Transfer in Continuous Domain with Partial
Observations [39.18274543757048]
シン・トゥ・リアル・トランスファー(英語版)は、シミュレーション環境でRLエージェントを訓練し、実世界で展開する。
実環境における最適政策と競合するシミュレートされた環境から、人気のある頑健な対人訓練アルゴリズムが、ポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-10-27T16:37:52Z) - Sim-to-Real via Sim-to-Seg: End-to-end Off-road Autonomous Driving
Without Real Data [56.49494318285391]
我々は、オフロード自動運転の視覚的現実的ギャップを横断するRCANを再想像するSim2Segを紹介する。
これは、ランダム化されたシミュレーション画像をシミュレートされたセグメンテーションと深さマップに変換する学習によって行われる。
これにより、シミュレーションでエンドツーエンドのRLポリシーをトレーニングし、現実世界に直接デプロイできます。
論文 参考訳(メタデータ) (2022-10-25T17:50:36Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Real2Sim or Sim2Real: Robotics Visual Insertion using Deep Reinforcement
Learning and Real2Sim Policy Adaptation [8.992053371569678]
本研究では,最小限のインフラ要件を持つ純粋視覚強化学習ソリューションを用いて挿入課題を解決する。
我々はまた、ポリシー適応において、新しくて簡単なソリューションを提供する新しいsim2real戦略、Real2Simを提案する。
論文 参考訳(メタデータ) (2022-06-06T15:27:25Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。