論文の概要: DESTA: A Framework for Safe Reinforcement Learning with Markov Games of
Intervention
- arxiv url: http://arxiv.org/abs/2110.14468v1
- Date: Wed, 27 Oct 2021 14:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 14:45:57.974659
- Title: DESTA: A Framework for Safe Reinforcement Learning with Markov Games of
Intervention
- Title(参考訳): DESTA: Markov Games of Interventionによる安全な強化学習フレームワーク
- Authors: David Mguni, Joel Jennings, Taher Jafferjee, Aivar Sootla, Yaodong
Yang, Changmin Yu, Usman Islam, Ziyan Wang, Jun Wang
- Abstract要約: 強化学習(RL)における安全な学習に取り組むための現在のアプローチは、安全な探索とタスク遂行のトレードオフにつながる。
我々は、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを導入する。
我々のアプローチは、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを使用する。
- 参考スコア(独自算出の注目度): 17.017957942831938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring in an unknown system can place an agent in dangerous situations,
exposing to potentially catastrophic hazards. Many current approaches for
tackling safe learning in reinforcement learning (RL) lead to a trade-off
between safe exploration and fulfilling the task. Though these methods possibly
incur fewer safety violations, they often also lead to reduced task
performance. In this paper, we take the first step in introducing a generation
of RL solvers that learn to minimise safety violations while maximising the
task reward to the extend that can be tolerated by safe policies. Our approach
uses a new two-player framework for safe RL called Distributive Exploration
Safety Training Algorithm (DESTA). The core of DESTA is a novel game between
two RL agents: SAFETY AGENT that is delegated the task of minimising safety
violations and TASK AGENT whose goal is to maximise the reward set by the
environment task. SAFETY AGENT can selectively take control of the system at
any given point to prevent safety violations while TASK AGENT is free to
execute its actions at all other states. This framework enables SAFETY AGENT to
learn to take actions that minimise future safety violations (during and after
training) by performing safe actions at certain states while TASK AGENT
performs actions that maximise the task performance everywhere else. We
demonstrate DESTA's ability to tackle challenging tasks and compare against
state-of-the-art RL methods in Safety Gym Benchmarks which simulate real-world
physical systems and OpenAI's Lunar Lander.
- Abstract(参考訳): 未知のシステムで探索することで、エージェントを危険な状況に配置し、破滅的な危険にさらされる可能性がある。
強化学習(RL)における安全な学習に取り組むための多くのアプローチは、安全な探索とタスク遂行のトレードオフにつながる。
これらの手法は安全性違反を少なくする可能性があるが、タスク性能の低下につながることもしばしばある。
本稿では,安全策により許容できる拡張に対するタスク報酬を最大化しつつ,安全性違反を最小限に抑えることを学ぶRLソルバの世代を導入するための第一歩を踏み出す。
このアプローチでは、分散探索安全トレーニングアルゴリズム(desta)と呼ばれる、安全なrlのための新しい2人乗りフレームワークを使用する。
DESTAのコアは、安全違反を最小限に抑えるタスクを委譲するSAFETY Agentと、環境タスクによって設定された報酬を最大化するTASK Agentの2つのRLエージェントの間の新しいゲームである。
SAFETY Agentは、TASK Agentが他のすべての州で自由に行動を実行している間に、安全違反を防ぐために、任意の時点でシステムを選択的に制御することができる。
この枠組みにより、SAFETY Agentは特定の州で安全な行動を行うことにより、将来の安全違反(訓練中および訓練後)を最小限に抑える行動をとることができる。
我々は,DESTAが課題に取り組む能力を示し,実際の物理システムとOpenAIのLunar LanderをシミュレートするSafety Gym Benchmarksの最先端のRL手法と比較する。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding [5.5929450570003185]
未知のブラックボックス環境におけるRLエージェントのトレーニングは、ドメイン/タスクに関する事前の知識が利用できない場合にさらに安全性の高いリスクをもたらす。
本稿では、トレーニング中の状態-動作ペアの安全性と安全性を区別する新しいポストシールド技術であるADVICE(Adaptive Shielding with a Contrastive Autoencoder)を紹介する。
論文 参考訳(メタデータ) (2024-05-28T13:47:21Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark [13.082034905010286]
本稿では,単一エージェントとマルチエージェントの両方のシナリオにおいて,安全クリティカルなタスクを含む環境スイートであるSafety-Gymnasiumを提案する。
Safe Policy Optimization (SafePO) という,最先端のSafeRLアルゴリズム16種からなるアルゴリズムのライブラリを提供する。
論文 参考訳(メタデータ) (2023-10-19T08:19:28Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance [73.3242641337305]
最近の研究は、制約に違反する確率を測定するリスク尺度を学習し、安全を可能にするために使用することができる。
我々は,安全な探索をオフラインのメタRL問題とみなし,様々な環境における安全かつ安全でない行動の例を活用することを目的としている。
次に,メタラーニングシミュレーションのアプローチであるMESA(Meta-learning for Safe Adaptation)を提案する。
論文 参考訳(メタデータ) (2021-12-07T08:57:35Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Safer Reinforcement Learning through Transferable Instinct Networks [6.09170287691728]
我々は,新たな政策が主方針を覆し,より安全な代替手段を提供するアプローチを提案する。
我々の本能制御型RL(IR2L)アプローチでは、望ましくない状況を認識するために「本能的」ネットワークを訓練する。
オープンAI安全体育ドメインのIR2Lについて, 安全性違反の件数が著しく少ないことを実証する。
論文 参考訳(メタデータ) (2021-07-14T13:22:04Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。