論文の概要: SafeAPT: Safe Simulation-to-Real Robot Learning using Diverse Policies
Learned in Simulation
- arxiv url: http://arxiv.org/abs/2201.13248v1
- Date: Thu, 27 Jan 2022 16:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-05 09:54:59.321927
- Title: SafeAPT: Safe Simulation-to-Real Robot Learning using Diverse Policies
Learned in Simulation
- Title(参考訳): safeapt: シミュレーションで学習した多様なポリシーを用いた安全なシミュレーションから現実へのロボット学習
- Authors: Rituraj Kaushik, Karol Arndt and Ville Kyrki
- Abstract要約: シミュレーションで学んだポリシーは、必ずしも本物のロボットに安全な振る舞いをもたらすとは限らない。
本研究では,シミュレーションで進化したポリシーの多様なレパートリーを活用する,SafeAPTと呼ばれる新しい学習アルゴリズムを提案する。
SafeAPTは,対話中の安全違反を最小限に抑えつつ,実世界では数分以内に高性能なポリシーを見出すことを示す。
- 参考スコア(独自算出の注目度): 12.778412161239466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The framework of Simulation-to-real learning, i.e, learning policies in
simulation and transferring those policies to the real world is one of the most
promising approaches towards data-efficient learning in robotics. However, due
to the inevitable reality gap between the simulation and the real world, a
policy learned in the simulation may not always generate a safe behaviour on
the real robot. As a result, during adaptation of the policy in the real world,
the robot may damage itself or cause harm to its surroundings. In this work, we
introduce a novel learning algorithm called SafeAPT that leverages a diverse
repertoire of policies evolved in the simulation and transfers the most
promising safe policy to the real robot through episodic interaction. To
achieve this, SafeAPT iteratively learns a probabilistic reward model as well
as a safety model using real-world observations combined with simulated
experiences as priors. Then, it performs Bayesian optimization on the
repertoire with the reward model while maintaining the specified safety
constraint using the safety model. SafeAPT allows a robot to adapt to a wide
range of goals safely with the same repertoire of policies evolved in the
simulation. We compare SafeAPT with several baselines, both in simulated and
real robotic experiments and show that SafeAPT finds high-performance policies
within a few minutes in the real world while minimizing safety violations
during the interactions.
- Abstract(参考訳): シミュレーションから現実への学習の枠組み、すなわちシミュレーションの学習方針を現実世界に移すことは、ロボット工学におけるデータ効率のよい学習への最も有望なアプローチの1つである。
しかし、シミュレーションと現実世界の間の避けられない現実のギャップのため、シミュレーションで学んだポリシーが必ずしも実際のロボットの安全な行動を生み出すとは限らない。
その結果、現実世界におけるポリシーの適応中に、ロボットは自身を傷つけたり、周囲に害を与える可能性がある。
本研究では,シミュレーションで進化した政策の多種多様なレパートリーを活用したsafeaptと呼ばれる新しい学習アルゴリズムを導入し,エピソディクスインタラクションを通じて,最も有望なセーフポリシーを現実のロボットに転送する。
これを実現するためにsafeaptは、実世界の観察とシミュレーション体験を先行として組み合わせた、確率的報酬モデルと安全モデルを繰り返し学習する。
そして、安全モデルを用いて指定された安全制約を維持しつつ、報酬モデルによるレパートリーのベイズ最適化を行う。
SafeAPTは、シミュレーションで進化したポリシーの同じレパートリーで、ロボットが幅広い目標に安全に適応できるようにする。
我々は、SafeAPTと、シミュレーションと実際のロボット実験の両方のベースラインを比較し、SafeAPTが実世界で数分以内に高性能なポリシーを発見しながら、インタラクション中の安全違反を最小限に抑えていることを示す。
関連論文リスト
- TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction [25.36756787147331]
シミュレーションの学習と実世界への学習は、ジェネラリストロボットを可能にする可能性がある。
そこで本研究では,Human-in-the-loopフレームワークをベースとしたSIM-to-real転送を実現するためのデータ駆動型手法を提案する。
本手法は,家具組立などの複雑かつ接触に富んだ操作作業において,シミュレートから現実への伝達を成功させることができることを示す。
論文 参考訳(メタデータ) (2024-05-16T17:59:07Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Residual Physics Learning and System Identification for Sim-to-real
Transfer of Policies on Buoyancy Assisted Legged Robots [14.760426243769308]
本研究では,BALLUロボットのシステム識別による制御ポリシのロバストなシミュレートを実演する。
標準的な教師あり学習の定式化に頼るのではなく、深層強化学習を利用して外部力政策を訓練する。
シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。
論文 参考訳(メタデータ) (2023-03-16T18:49:05Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。