論文の概要: MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance
- arxiv url: http://arxiv.org/abs/2112.03575v1
- Date: Tue, 7 Dec 2021 08:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 22:09:08.341120
- Title: MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance
- Title(参考訳): MESA: 安全適応とフォールトトレランスのためのオフラインメタRL
- Authors: Michael Luo, Ashwin Balakrishna, Brijen Thananjeyan, Suraj Nair,
Julian Ibarz, Jie Tan, Chelsea Finn, Ion Stoica, Ken Goldberg
- Abstract要約: 最近の研究は、制約に違反する確率を測定するリスク尺度を学習し、安全を可能にするために使用することができる。
我々は,安全な探索をオフラインのメタRL問題とみなし,様々な環境における安全かつ安全でない行動の例を活用することを目的としている。
次に,メタラーニングシミュレーションのアプローチであるMESA(Meta-learning for Safe Adaptation)を提案する。
- 参考スコア(独自算出の注目度): 73.3242641337305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe exploration is critical for using reinforcement learning (RL) in
risk-sensitive environments. Recent work learns risk measures which measure the
probability of violating constraints, which can then be used to enable safety.
However, learning such risk measures requires significant interaction with the
environment, resulting in excessive constraint violations during learning.
Furthermore, these measures are not easily transferable to new environments. We
cast safe exploration as an offline meta-RL problem, where the objective is to
leverage examples of safe and unsafe behavior across a range of environments to
quickly adapt learned risk measures to a new environment with previously unseen
dynamics. We then propose MEta-learning for Safe Adaptation (MESA), an approach
for meta-learning a risk measure for safe RL. Simulation experiments across 5
continuous control domains suggest that MESA can leverage offline data from a
range of different environments to reduce constraint violations in unseen
environments by up to a factor of 2 while maintaining task performance. See
https://tinyurl.com/safe-meta-rl for code and supplementary material.
- Abstract(参考訳): 安全探索は、リスクに敏感な環境で強化学習(RL)を使用する上で重要である。
最近の研究は、制約に違反する可能性を測定するリスク測度を学習し、安全のために使用できる。
しかし、そのようなリスク対策を学ぶには環境と大きな相互作用が必要であり、学習中に過度な制約違反を引き起こす。
さらに、これらの措置は、新しい環境に容易に移行できない。
我々は,安全探索をオフラインのメタRL問題とみなし,学習したリスク対策を従来見つからなかった新しい環境に迅速に適応させるため,様々な環境における安全かつ安全でない行動の例を活用することを目的とする。
次に,安全なrlのためのリスク尺度をメタラーニングする手法である,safe adaptation (mesa) のためのメタラーニングを提案する。
5つの連続制御ドメインにわたるシミュレーション実験から、mesaはさまざまな環境からのオフラインデータを利用して、タスクパフォーマンスを維持しながら、見えない環境での制約違反を最大2倍削減できることが示唆された。
コードと補足資料についてはhttps://tinyurl.com/safe-meta-rlを参照。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - A Safe Exploration Strategy for Model-free Task Adaptation in Safety-constrained Grid Environments [2.5037136114892267]
安全に制約された環境では、教師なしの探査や非最適政策を利用すると、エージェントは望ましくない状態に陥る可能性がある。
モデルフリーエージェントが安全制約に固執しながら環境と対話できるグリッド環境をナビゲートするための新しい探索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T04:09:30Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。