論文の概要: Safe Reinforcement Learning Using Advantage-Based Intervention
- arxiv url: http://arxiv.org/abs/2106.09110v1
- Date: Wed, 16 Jun 2021 20:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 10:38:51.623046
- Title: Safe Reinforcement Learning Using Advantage-Based Intervention
- Title(参考訳): アドバンテージに基づく介入による安全強化学習
- Authors: Nolan Wagener, Byron Boots, Ching-An Cheng
- Abstract要約: 多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
- 参考スコア(独自算出の注目度): 45.79740561754542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many sequential decision problems involve finding a policy that maximizes
total reward while obeying safety constraints. Although much recent research
has focused on the development of safe reinforcement learning (RL) algorithms
that produce a safe policy after training, ensuring safety during training as
well remains an open problem. A fundamental challenge is performing exploration
while still satisfying constraints in an unknown Markov decision process (MDP).
In this work, we address this problem for the chance-constrained setting. We
propose a new algorithm, SAILR, that uses an intervention mechanism based on
advantage functions to keep the agent safe throughout training and optimizes
the agent's policy using off-the-shelf RL algorithms designed for unconstrained
MDPs. Our method comes with strong guarantees on safety during both training
and deployment (i.e., after training and without the intervention mechanism)
and policy performance compared to the optimal safety-constrained policy. In
our experiments, we show that SAILR violates constraints far less during
training than standard safe RL and constrained MDP approaches and converges to
a well-performing policy that can be deployed safely without intervention. Our
code is available at https://github.com/nolanwagener/safe_rl.
- Abstract(参考訳): 多くのシーケンシャルな決定問題は、安全性の制約に従って全報酬を最大化するポリシーを見つけることである。
近年の研究では、トレーニング後に安全なポリシーを生成する安全強化学習(rl)アルゴリズムの開発に焦点が当てられているが、トレーニング中の安全性の確保は依然として未解決の問題である。
基本的な課題は、未知のマルコフ決定プロセス(MDP)における制約を満たしながら探索を行うことである。
本稿では,この課題を確率制約条件で解決する。
本稿では, エージェントの安全性を確保するために, アドバンスト関数に基づく介入機構を用いた新たなアルゴリズムSAILRを提案し, 制約のないMDP用に設計された既製のRLアルゴリズムを用いてエージェントのポリシーを最適化する。
本手法は, 訓練と展開の双方(訓練後, 介入機構なし)における安全性と, 最適安全制約ポリシーと比較して, 政策性能の保証が強いものである。
実験の結果,SAILRは標準安全RLや制約付きMDPアプローチよりも訓練中よりはるかに少ない制約に違反し,介入なしに安全に展開できる優れた政策に収束することがわかった。
私たちのコードはhttps://github.com/nolanwagener/safe_rlで利用可能です。
関連論文リスト
- Towards Safe Load Balancing based on Control Barrier Functions and Deep
Reinforcement Learning [0.691367883100748]
我々は,SD-WAN(Software Defined-Wide Area Network)のための安全な学習に基づくロードバランシングアルゴリズムを提案する。
制御バリア関数(CBF)を併用した深層強化学習(DRL)によって強化される。
提案手法は,リンク容量制約に関する安全性要件を尊重しつつ,エンドツーエンドの遅延の観点から,ほぼ最適品質(QoS)を提供することを示す。
論文 参考訳(メタデータ) (2024-01-10T19:43:12Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T10:26:29Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Safe Distributional Reinforcement Learning [19.607668635077495]
強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。
分布 RL の設定において制約付き RL の定式化で定式化する。
私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。
論文 参考訳(メタデータ) (2021-02-26T13:03:27Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。