論文の概要: Reinforcement Learning by Guided Safe Exploration
- arxiv url: http://arxiv.org/abs/2307.14316v1
- Date: Wed, 26 Jul 2023 17:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 11:39:51.527650
- Title: Reinforcement Learning by Guided Safe Exploration
- Title(参考訳): ガイド付き安全探査による強化学習
- Authors: Qisong Yang, Thiago D. Sim\~ao, Nils Jansen, Simon H. Tindemans,
Matthijs T. J. Spaan
- Abstract要約: エージェント(ガイド)が報酬信号なしで安全に探索することを学習する,制約付き報酬のない設定について考察する。
このエージェントは制御された環境で訓練され、安全でない相互作用を可能にし、安全信号を提供する。
また,学生が信頼できない間に対象方針を定式化し,ガイドの影響を徐々に排除する。
- 参考スコア(独自算出の注目度): 11.14908712905592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety is critical to broadening the application of reinforcement learning
(RL). Often, we train RL agents in a controlled environment, such as a
laboratory, before deploying them in the real world. However, the real-world
target task might be unknown prior to deployment. Reward-free RL trains an
agent without the reward to adapt quickly once the reward is revealed. We
consider the constrained reward-free setting, where an agent (the guide) learns
to explore safely without the reward signal. This agent is trained in a
controlled environment, which allows unsafe interactions and still provides the
safety signal. After the target task is revealed, safety violations are not
allowed anymore. Thus, the guide is leveraged to compose a safe behaviour
policy. Drawing from transfer learning, we also regularize a target policy (the
student) towards the guide while the student is unreliable and gradually
eliminate the influence of the guide as training progresses. The empirical
analysis shows that this method can achieve safe transfer learning and helps
the student solve the target task faster.
- Abstract(参考訳): 安全は強化学習(RL)の適用を広げるために重要である。
多くの場合、実験室のような制御された環境でRLエージェントを訓練し、実世界で展開する。
しかし、実際のターゲットタスクは、デプロイ前に不明かもしれない。
Reward-free RLは報酬のないエージェントを訓練し、報酬が明らかになったらすぐに適応させる。
エージェント(ガイド)が報酬信号なしで安全に探索することを学ぶという制約のない条件を考える。
このエージェントは制御された環境で訓練され、安全でない相互作用を可能にし、安全信号を提供する。
目標タスクが公表された後、安全違反はもはや許されない。
したがって、ガイドを利用して安全な行動ポリシーを構成する。
また,転校学習から,学生が信頼できない間に目標方針(学生)を定式化し,学習が進むにつれてガイドの影響を徐々に排除する。
実験分析の結果,この手法は安全な転校学習を実現でき,学生がより早く目標課題を解決できることがわかった。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding [5.5929450570003185]
未知のブラックボックス環境におけるRLエージェントのトレーニングは、ドメイン/タスクに関する事前の知識が利用できない場合にさらに安全性の高いリスクをもたらす。
本稿では、トレーニング中の状態-動作ペアの安全性と安全性を区別する新しいポストシールド技術であるADVICE(Adaptive Shielding with a Contrastive Autoencoder)を紹介する。
論文 参考訳(メタデータ) (2024-05-28T13:47:21Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Don't do it: Safer Reinforcement Learning With Rule-based Guidance [2.707154152696381]
訓練中、強化学習システムは行動の安全性を考慮せずに世界と対話する。
本稿では,安全ルールを用いて,安全でないと判断されたエージェントの行動をオーバーライドする新しい安全エプシロングレーディアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-28T13:42:56Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - DESTA: A Framework for Safe Reinforcement Learning with Markov Games of
Intervention [17.017957942831938]
強化学習(RL)における安全な学習に取り組むための現在のアプローチは、安全な探索とタスク遂行のトレードオフにつながる。
我々は、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを導入する。
我々のアプローチは、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを使用する。
論文 参考訳(メタデータ) (2021-10-27T14:35:00Z) - Safer Reinforcement Learning through Transferable Instinct Networks [6.09170287691728]
我々は,新たな政策が主方針を覆し,より安全な代替手段を提供するアプローチを提案する。
我々の本能制御型RL(IR2L)アプローチでは、望ましくない状況を認識するために「本能的」ネットワークを訓練する。
オープンAI安全体育ドメインのIR2Lについて, 安全性違反の件数が著しく少ないことを実証する。
論文 参考訳(メタデータ) (2021-07-14T13:22:04Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。