論文の概要: Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones
- arxiv url: http://arxiv.org/abs/2010.15920v2
- Date: Mon, 17 May 2021 21:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:36:52.318054
- Title: Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones
- Title(参考訳): recovery rl: 学習リカバリゾーンを用いた安全な強化学習
- Authors: Brijen Thananjeyan, Ashwin Balakrishna, Suraj Nair, Michael Luo,
Krishnan Srinivasan, Minho Hwang, Joseph E. Gonzalez, Julian Ibarz, Chelsea
Finn, Ken Goldberg
- Abstract要約: リカバリRLは、オフラインデータを使用して、ポリシー学習の前に制約違反ゾーンについて学習する。
2つのコンタクトリッチな操作タスクと画像に基づくナビゲーションタスクを含む6つのシミュレーション領域におけるリカバリRLの評価を行った。
その結果,リカバリRLは制約違反やタスク成功を2~20倍,物理実験では3倍の効率で処理できることが示唆された。
- 参考スコア(独自算出の注目度): 81.49106778460238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety remains a central obstacle preventing widespread use of RL in the real
world: learning new tasks in uncertain environments requires extensive
exploration, but safety requires limiting exploration. We propose Recovery RL,
an algorithm which navigates this tradeoff by (1) leveraging offline data to
learn about constraint violating zones before policy learning and (2)
separating the goals of improving task performance and constraint satisfaction
across two policies: a task policy that only optimizes the task reward and a
recovery policy that guides the agent to safety when constraint violation is
likely. We evaluate Recovery RL on 6 simulation domains, including two
contact-rich manipulation tasks and an image-based navigation task, and an
image-based obstacle avoidance task on a physical robot. We compare Recovery RL
to 5 prior safe RL methods which jointly optimize for task performance and
safety via constrained optimization or reward shaping and find that Recovery RL
outperforms the next best prior method across all domains. Results suggest that
Recovery RL trades off constraint violations and task successes 2 - 20 times
more efficiently in simulation domains and 3 times more efficiently in physical
experiments. See https://tinyurl.com/rl-recovery for videos and supplementary
material.
- Abstract(参考訳): 安全は、現実の世界でRLが広く使われるのを防ぐ中心的な障害であり、不確実な環境で新しいタスクを学習するには広範な探索が必要であるが、安全は探索を制限する必要がある。
本稿では,(1)オフラインデータを利用して政策学習前の制約違反ゾーンを学習するアルゴリズムであるRecovery RLを提案し,(2)タスク性能の向上と制約満足度の向上という目標を,2つのポリシ – タスク報酬のみを最適化するタスクポリシーと,制約違反の可能性がある場合にエージェントを安全に導くリカバリポリシを提案する。
2つの接触リッチな操作タスクとイメージベースのナビゲーションタスク,および物理ロボットにおけるイメージベースの障害物回避タスクを含む,6つのシミュレーション領域上のリカバリRLを評価する。
我々は、リカバリRLを、制約付き最適化や報酬形成を通じてタスク性能と安全性を協調的に最適化する5つの安全RL手法と比較し、リカバリRLが全ての領域で次の最良先行手法より優れていることを見出した。
その結果,リカバリRLは制約違反やタスク成功を2~20倍,物理実験では3倍の効率で処理できることが示唆された。
ビデオや補足資料はhttps://tinyurl.com/rl-recoveryを参照。
関連論文リスト
- Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T05:20:57Z) - Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文 参考訳(メタデータ) (2023-10-13T03:39:15Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Constraint-Guided Reinforcement Learning: Augmenting the
Agent-Environment-Interaction [10.203602318836445]
強化学習(RL)エージェントは、限られたフィードバックから大きな観察とアクションスペースでタスクを解決することに成功しています。
本稿では,制約に基づく拡張モデルと深部RLの統合による信頼性エージェントのエンジニアリングについて論じる。
その結果、制約ガイダンスは信頼性の向上と安全な行動を提供するだけでなく、トレーニングを加速する。
論文 参考訳(メタデータ) (2021-04-24T10:04:14Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。