論文の概要: Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics
- arxiv url: http://arxiv.org/abs/2503.10949v1
- Date: Thu, 13 Mar 2025 23:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:18.730492
- Title: Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics
- Title(参考訳): ロボットにおける強化学習ポリシーのSim2導入後の安全な連続ドメイン適応
- Authors: Josip Josifovski, Shangding Gu, Mohammadhossein Malmir, Haoliang Huang, Sayantan Auddy, Nicolás Navarro-Guerrero, Costas Spanos, Alois Knoll,
- Abstract要約: ドメインランダム化(Domain randomization)は、シミュレーションから現実のロボットアプリケーションへのポリシーの転送を容易にする技術である。
実世界のロボット制御において,安全な配置時ポリシー適用を可能にする手法を提案する。
- 参考スコア(独自算出の注目度): 3.7491742648742568
- License:
- Abstract: Domain randomization has emerged as a fundamental technique in reinforcement learning (RL) to facilitate the transfer of policies from simulation to real-world robotic applications. Many existing domain randomization approaches have been proposed to improve robustness and sim2real transfer. These approaches rely on wide randomization ranges to compensate for the unknown actual system parameters, leading to robust but inefficient real-world policies. In addition, the policies pretrained in the domain-randomized simulation are fixed after deployment due to the inherent instability of the optimization processes based on RL and the necessity of sampling exploitative but potentially unsafe actions on the real system. This limits the adaptability of the deployed policy to the inevitably changing system parameters or environment dynamics over time. We leverage safe RL and continual learning under domain-randomized simulation to address these limitations and enable safe deployment-time policy adaptation in real-world robot control. The experiments show that our method enables the policy to adapt and fit to the current domain distribution and environment dynamics of the real system while minimizing safety risks and avoiding issues like catastrophic forgetting of the general policy found in randomized simulation during the pretraining phase. Videos and supplementary material are available at https://safe-cda.github.io/.
- Abstract(参考訳): ドメインランダム化は、シミュレーションから現実のロボットアプリケーションへのポリシーの転送を容易にするため、強化学習(RL)の基本的な技術として登場した。
多くの既存領域ランダム化アプローチは、ロバストネスとsim2real転送を改善するために提案されている。
これらのアプローチは、未知のシステムパラメータを補うために広いランダム化範囲に依存しており、堅牢だが非効率な現実世界のポリシーを生み出している。
さらに、RLに基づく最適化プロセスの本質的な不安定性や、実システムに対する悪用的かつ潜在的に安全でないアクションをサンプリングする必要があるため、ドメインランダム化シミュレーションで事前訓練されたポリシーは、デプロイ後に修正される。
これにより、デプロイされたポリシーの適応性は、必然的に変化するシステムパラメータや環境のダイナミクスに制限されます。
ドメインランダム化シミュレーションにおける安全なRLと連続学習を活用して,これらの制約に対処し,実世界のロボット制御における安全な配置時ポリシー適用を可能にする。
実験により,本手法は,安全リスクを最小限に抑えつつ,事前学習期間中にランダム化シミュレーションで見いだされた一般政策の破滅的な忘れ込みなどの問題を回避しつつ,現実システムの現在の領域分布と環境動態に適応し,適合させることができることを示した。
ビデオと補足資料はhttps://safe-cda.github.io/.com/で公開されている。
関連論文リスト
- Mind the Gap: Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning [15.619925926862235]
GAPは汎用的な自律型ペンテスティングフレームワークである。
現実的な環境で効率的な政策トレーニングを実現することを目的としている。
また、あるインスタンスから他のケースについて推論できるエージェントを訓練する。
論文 参考訳(メタデータ) (2024-12-05T11:24:27Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Uncertainty Aware System Identification with Universal Policies [45.44896435487879]
Sim2real Transferは、シミュレーションで訓練されたポリシーを、潜在的にノイズの多い現実世界環境に転送することに関心がある。
本研究では,Universal Policy Network (UPN) を用いてシミュレーション学習したタスク固有ポリシーを格納するUncertainty-aware Policy Search (UncAPS)を提案する。
次に、我々は、DRのような方法で関連するUPNポリシーを組み合わせることで、与えられた環境に対して堅牢なポリシーを構築するために、堅牢なベイズ最適化を採用する。
論文 参考訳(メタデータ) (2022-02-11T18:27:23Z) - SafeAPT: Safe Simulation-to-Real Robot Learning using Diverse Policies
Learned in Simulation [12.778412161239466]
シミュレーションで学んだポリシーは、必ずしも本物のロボットに安全な振る舞いをもたらすとは限らない。
本研究では,シミュレーションで進化したポリシーの多様なレパートリーを活用する,SafeAPTと呼ばれる新しい学習アルゴリズムを提案する。
SafeAPTは,対話中の安全違反を最小限に抑えつつ,実世界では数分以内に高性能なポリシーを見出すことを示す。
論文 参考訳(メタデータ) (2022-01-27T16:40:36Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization [63.09932240840656]
我々は、すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習方法を示す。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境において、ゼロショットで物理ロボットに転送する結果を連続的に改善することを示す。
論文 参考訳(メタデータ) (2021-04-29T14:54:11Z) - Improving Robustness via Risk Averse Distributional Reinforcement
Learning [13.467017642143581]
実環境ではなくシミュレーションでポリシーが訓練される場合、ロバスト性は重要である。
本研究では,シミュレーショントレーニングと実世界の実装のギャップを埋めるため,ロバストなポリシーを学習するためのリスク認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-01T20:03:10Z) - Data-efficient Domain Randomization with Bayesian Optimization [34.854609756970305]
ロボット制御のためのポリシーを学ぶとき、必要となる現実世界のデータは通常、入手するのに極めて高価である。
BayRnはブラックボックスのsim-to-realアルゴリズムであり、ドメインパラメータ分布を適応させることでタスクを効率的に解く。
以上の結果から,BayRnは,必要となる事前知識を著しく低減しつつ,シム・トゥ・リアル・トランスファーを行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2020-03-05T07:48:31Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。