論文の概要: SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition
- arxiv url: http://arxiv.org/abs/2202.04849v1
- Date: Thu, 10 Feb 2022 05:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 15:53:03.450311
- Title: SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition
- Title(参考訳): SAFER: スキル獲得によるデータ効率と安全強化学習
- Authors: Dylan Slack, Yinlam Chow, Bo Dai, and Nevan Wichers
- Abstract要約: 安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
- 参考スコア(独自算出の注目度): 59.94644674087599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though many reinforcement learning (RL) problems involve learning policies in
settings with difficult-to-specify safety constraints and sparse rewards,
current methods struggle to acquire successful and safe policies. Methods that
extract useful policy primitives from offline datasets using generative
modeling have recently shown promise at accelerating RL in these more complex
settings. However, we discover that current primitive-learning methods may not
be well-equipped for safe policy learning and may promote unsafe behavior due
to their tendency to ignore data from undesirable behaviors. To overcome these
issues, we propose SAFEty skill pRiors (SAFER), an algorithm that accelerates
policy learning on complex control tasks under safety constraints. Through
principled training on an offline dataset, SAFER learns to extract safe
primitive skills. In the inference stage, policies trained with SAFER learn to
compose safe skills into successful policies. We theoretically characterize why
SAFER can enforce safe policy learning and demonstrate its effectiveness on
several complex safety-critical robotic grasping tasks inspired by the game
Operation, in which SAFER outperforms baseline methods in learning successful
policies and enforcing safety.
- Abstract(参考訳): 多くの強化学習(rl)問題には、安全上の制約や報酬が不十分な設定での学習方針が伴うが、現在の手法では、成功し安全なポリシーを得るのに苦労している。
生成モデリングを使ってオフラインデータセットから有用なポリシープリミティブを抽出する手法は、より複雑な設定でrlを加速する可能性を最近示した。
しかし,現在のプリミティブ・ラーニング手法は,安全な政策学習には適さない可能性があり,望ましくない行動からデータを無視する傾向があるため,安全でない行動を促す可能性がある。
これらの問題を克服するために,安全制約下での複雑な制御タスクのポリシー学習を高速化するアルゴリズムSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み立てることを学ぶ。
我々は,SAFERが安全な政策学習を実施できる理由を理論的に特徴付け,ゲーム操作に触発された複雑な安全クリティカルなロボット把握タスクにおいて,SAFERが成功政策の学習や安全の実施において基本的手法より優れていることを示す。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。