論文の概要: Provable Sim-to-real Transfer in Continuous Domain with Partial
Observations
- arxiv url: http://arxiv.org/abs/2210.15598v1
- Date: Thu, 27 Oct 2022 16:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:56:05.033155
- Title: Provable Sim-to-real Transfer in Continuous Domain with Partial
Observations
- Title(参考訳): 部分観察による連続領域における確率的Sim-to-real転送
- Authors: Jiachen Hu, Han Zhong, Chi Jin, Liwei Wang
- Abstract要約: シン・トゥ・リアル・トランスファー(英語版)は、シミュレーション環境でRLエージェントを訓練し、実世界で展開する。
実環境における最適政策と競合するシミュレートされた環境から、人気のある頑健な対人訓練アルゴリズムが、ポリシーを学習できることを示す。
- 参考スコア(独自算出の注目度): 39.18274543757048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sim-to-real transfer trains RL agents in the simulated environments and then
deploys them in the real world. Sim-to-real transfer has been widely used in
practice because it is often cheaper, safer and much faster to collect samples
in simulation than in the real world. Despite the empirical success of the
sim-to-real transfer, its theoretical foundation is much less understood. In
this paper, we study the sim-to-real transfer in continuous domain with partial
observations, where the simulated environments and real-world environments are
modeled by linear quadratic Gaussian (LQG) systems. We show that a popular
robust adversarial training algorithm is capable of learning a policy from the
simulated environment that is competitive to the optimal policy in the
real-world environment. To achieve our results, we design a new algorithm for
infinite-horizon average-cost LQGs and establish a regret bound that depends on
the intrinsic complexity of the model class. Our algorithm crucially relies on
a novel history clipping scheme, which might be of independent interest.
- Abstract(参考訳): sim-to-realはシミュレーション環境でrlエージェントを訓練し、実世界に展開する。
sim-to-real transferは、現実世界よりも安価で安全で、シミュレーションでサンプルを集めるのがはるかに速いため、実際に広く使われている。
sim-to-real転送の実証的な成功にもかかわらず、その理論的基礎は理解されていない。
本稿では,シミュレーション環境と実環境を線形二次ガウス系 (lqg) 系でモデル化した連続領域におけるsim-to-real転移を部分的観測により検討する。
実環境における最適政策と競合するシミュレートされた環境から、人気のある頑健な対人訓練アルゴリズムが、ポリシーを学習できることを示す。
そこで我々は,無限水平平均コストLQGに対する新しいアルゴリズムを設計し,モデルクラス固有の複雑さに依存する後悔境界を確立する。
我々のアルゴリズムは、独立した関心を持つであろう新しい歴史クリッピング方式に決定的に依存する。
関連論文リスト
- Overcoming the Sim-to-Real Gap: Leveraging Simulation to Learn to Explore for Real-World RL [25.991354823569033]
多くの制度において、直接シム2リアルトランスファーは失敗する可能性があるが、シミュレータを使って一連のエフェクト探索ポリシーを学習できることが示される。
特に、低ランクのMDPの設定においては、これらの探索政策と単純で実践的なアプローチが結合していることが示される。
これは、シミュレーション転送が直接sim2real転送が失敗する環境で強化学習において証明可能な利益をもたらすという最初の証拠である。
論文 参考訳(メタデータ) (2024-10-26T19:12:27Z) - LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
本稿では,生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
さらなる改善のためにシミュレーションで現実世界の環境を再構築する。
継続的なトレーニングを活用することで、LoopSRは強力なベースラインに比べて優れたデータ効率を達成する。
論文 参考訳(メタデータ) (2024-09-26T16:02:25Z) - Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning [15.792914346054502]
我々は、カバーパス計画(CPP)のための強化学習エージェント(RL)のSim-to-real転送の課題に取り組む。
シミュレーションされたセンサと障害物を利用しながら、現実のロボットやリアルタイムの側面を含む半仮想環境を通じて、シミュレートと現実のギャップを橋渡しする。
高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。
論文 参考訳(メタデータ) (2024-06-07T13:24:19Z) - Zero-shot Sim2Real Adaptation Across Environments [45.44896435487879]
本稿では,実世界のシミュレートされたポリシーを模倣することを学ぶリバースアクショントランスフォーメーション(RAT)ポリシーを提案する。
RATは、新しい環境へのゼロショット適応を達成するために、Universal Policy Network上にデプロイできる。
論文 参考訳(メタデータ) (2023-02-08T11:59:07Z) - Understanding Domain Randomization for Sim-to-real Transfer [41.33483293243257]
本稿では,シミュレータを調整可能なパラメータを持つMDPの集合としてモデル化する,sim-to-realトランスファーの理論的枠組みを提案する。
実世界のトレーニングサンプルを使わずに, 穏やかな条件下で, sim-to-realトランスファーが成功できることを実証する。
論文 参考訳(メタデータ) (2021-10-07T07:45:59Z) - Sim and Real: Better Together [47.14469055555684]
シミュレーションと実環境とのインタラクションの両方から同時に学習する方法を実証する。
本稿では,高いスループットから多数のサンプルのバランスをとるアルゴリズムを提案するが,精度は低い。
このような多環境相互作用を理論的に解析し、新しい理論的なリプレイバッファ解析により収束特性を提供する。
論文 参考訳(メタデータ) (2021-10-01T14:30:03Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。