論文の概要: Safe Policy Improvement Approaches and their Limitations
- arxiv url: http://arxiv.org/abs/2208.00724v1
- Date: Mon, 1 Aug 2022 10:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:16:55.377455
- Title: Safe Policy Improvement Approaches and their Limitations
- Title(参考訳): 安全政策改善アプローチとその限界
- Authors: Philipp Scholl, Felix Dietrich, Clemens Otte, Steffen Udluft
- Abstract要約: 我々は,各文献からの各種安全政策改善(SPI)アプローチを,状態-作用ペアの不確実性を活用した2つのグループに分類する。
彼らの主張が確実に安全であるという主張は成り立たないことを示す。
我々はAdv.-Soft-SPIBBアルゴリズムの適応を開発し、それらが確実に安全であることを示す。
- 参考スコア(独自算出の注目度): 2.596059386610301
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Safe Policy Improvement (SPI) is an important technique for offline
reinforcement learning in safety critical applications as it improves the
behavior policy with a high probability. We classify various SPI approaches
from the literature into two groups, based on how they utilize the uncertainty
of state-action pairs. Focusing on the Soft-SPIBB (Safe Policy Improvement with
Soft Baseline Bootstrapping) algorithms, we show that their claim of being
provably safe does not hold. Based on this finding, we develop adaptations, the
Adv-Soft-SPIBB algorithms, and show that they are provably safe. A heuristic
adaptation, Lower-Approx-Soft-SPIBB, yields the best performance among all
SPIBB algorithms in extensive experiments on two benchmarks. We also check the
safety guarantees of the provably safe algorithms and show that huge amounts of
data are necessary such that the safety bounds become useful in practice.
- Abstract(参考訳): 安全政策改善(SPI)は、安全クリティカルアプリケーションにおけるオフライン強化学習において重要な手法であり、高い確率で行動ポリシーを改善する。
我々は、状態-作用対の不確実性を利用する方法に基づいて、文献から様々なSPIアプローチを2つのグループに分類する。
ソフトSPIBB(Soft Baseline Bootstrappingによるセーフポリシー改善)アルゴリズムに着目し,安全であるという主張が成立しないことを示す。
そこで本研究では,Adv-Soft-SPIBBアルゴリズムの適応法を開発し,その安全性を示す。
ヒューリスティックな適応であるlow-Approx-Soft-SPIBBは、2つのベンチマークで広範な実験を行い、全てのSPIBBアルゴリズムの中で最高の性能を得る。
また,安全確保可能なアルゴリズムの安全性保証を確認し,安全限界が実用的になるためには膨大なデータが必要であることを示す。
関連論文リスト
- SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - More for Less: Safe Policy Improvement With Stronger Performance
Guarantees [7.507789621505201]
安全な政策改善(SPI)問題は、サンプルデータが生成された行動ポリシーの性能を改善することを目的としている。
本稿では,SPI問題に対する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-13T16:22:21Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Policy Improvement Approaches on Discrete Markov Decision Processes [2.596059386610301]
安全政策改善(SPI)は、学習方針が与えられた基準方針とほぼ同等であることを示すことを目的としている。
有限マルコフ決定過程(MDP)上で確実に安全な新しいアルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-01-28T15:16:54Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Safe Reinforcement Learning in Constrained Markov Decision Processes [20.175139766171277]
本稿では,マルコフ決定過程を未知の安全制約下で探索・最適化するアルゴリズムSNO-MDPを提案する。
我々は、安全制約の満足度と累積報酬のほぼ最適性の両方を理論的に保証する。
論文 参考訳(メタデータ) (2020-08-15T02:20:23Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。