論文の概要: Protective Policy Transfer
- arxiv url: http://arxiv.org/abs/2012.06662v1
- Date: Fri, 11 Dec 2020 22:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 04:22:15.178889
- Title: Protective Policy Transfer
- Title(参考訳): 保護政策移転
- Authors: Wenhao Yu, C. Karen Liu, Greg Turk
- Abstract要約: ロボットモーターのスキルを新しいシナリオに適応するためのポリシー転送アルゴリズムを紹介します。
アルゴリズムは2つの制御ポリシーを訓練する: 関心のあるタスクを完了するために最適化されたタスクポリシーと、ロボットを安全でないイベントから守るための保護ポリシーです。
本研究では,4つのロボット移動問題と2次元ナビゲーション問題に対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 37.897395735552706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being able to transfer existing skills to new situations is a key capability
when training robots to operate in unpredictable real-world environments. A
successful transfer algorithm should not only minimize the number of samples
that the robot needs to collect in the new environment, but also prevent the
robot from damaging itself or the surrounding environment during the transfer
process. In this work, we introduce a policy transfer algorithm for adapting
robot motor skills to novel scenarios while minimizing serious failures. Our
algorithm trains two control policies in the training environment: a task
policy that is optimized to complete the task of interest, and a protective
policy that is dedicated to keep the robot from unsafe events (e.g. falling to
the ground). To decide which policy to use during execution, we learn a safety
estimator model in the training environment that estimates a continuous safety
level of the robot. When used with a set of thresholds, the safety estimator
becomes a classifier for switching between the protective policy and the task
policy. We evaluate our approach on four simulated robot locomotion problems
and a 2D navigation problem and show that our method can achieve successful
transfer to notably different environments while taking the robot's safety into
consideration.
- Abstract(参考訳): 既存のスキルを新たな状況に移行できることは、予測不能な実環境で動作するようにロボットを訓練する上で重要な能力だ。
転送を成功させるアルゴリズムは、ロボットが新しい環境で収集する必要があるサンプルの数を最小限に抑えるだけでなく、移動プロセス中にロボットが自身や周囲の環境を傷つけることを防ぐ必要がある。
本稿では,ロボットの運動能力を新たなシナリオに適応させ,重大な障害を最小限に抑えるためのポリシー伝達アルゴリズムを提案する。
本アルゴリズムは,作業の完了に最適化されたタスクポリシと,ロボットが安全でないイベント(例えば,ロボットの安全を損なわないための保護ポリシという,トレーニング環境における2つのコントロールポリシを訓練する。
地面に倒れる)。
実行中に使用するポリシを決定するために,ロボットの持続的安全性レベルを推定するトレーニング環境において,安全推定モデルを学ぶ。
一連の閾値で使用すると、安全推定器は、保護ポリシーとタスクポリシーを切り替えるための分類器となる。
本研究では,4つのロボット移動問題と2次元ナビゲーション問題に対するアプローチを評価し,ロボットの安全性を考慮しつつ,異なる環境への移動を成功させることができることを示す。
関連論文リスト
- Safe Policy Exploration Improvement via Subgoals [44.07721205323709]
強化学習(Reinforcement learning)は、自律ナビゲーションにおいて広く使われているアプローチであり、様々なタスクやロボットのセットアップの可能性を示している。
このようなセットアップでパフォーマンスが低かった理由の1つは、安全制約を尊重する必要性がRLエージェントの探索能力を低下させることである。
本稿では,初期問題を中間目標を介し,より小さなサブプロブレムに分解する新しい学習可能アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-25T16:12:49Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Task and Domain Adaptive Reinforcement Learning for Robot Control [0.34137115855910755]
課題や環境条件に応じて動的にポリシーを適応する新しい適応エージェントを提案する。
このエージェントはIsaacGym上に作られたカスタムで高度に並列化されたシミュレータを使って訓練されている。
実世界において、さまざまな課題を解くために、飛行飛行のためにゼロショット転送を行う。
論文 参考訳(メタデータ) (2024-04-29T14:02:02Z) - Deception Game: Closing the Safety-Learning Loop in Interactive Robot
Autonomy [7.915956857741506]
既存の安全手法は、ロボットが実行時に学習し適応する能力を無視することが多く、過度に保守的な行動を引き起こす。
本稿では,ロボットの進化する不確実性を明示的に考慮した安全制御ポリシを合成するための,新しいクローズドループパラダイムを提案する。
論文 参考訳(メタデータ) (2023-09-03T20:34:01Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Safe reinforcement learning of dynamic high-dimensional robotic tasks:
navigation, manipulation, interaction [31.553783147007177]
強化学習では、損傷を起こさない環境を探索する上で、安全はより基本的なものである。
本稿では,各種ロボット作業の強化学習のための安全探索の新たな定式化について紹介する。
我々のアプローチは、幅広い種類のロボットプラットフォームに適用され、データから学んだ複雑な衝突制約の下でも安全を強制する。
論文 参考訳(メタデータ) (2022-09-27T11:23:49Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。