論文の概要: SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation
- arxiv url: http://arxiv.org/abs/2202.06558v1
- Date: Mon, 14 Feb 2022 08:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:50:32.383737
- Title: SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation
- Title(参考訳): SAUTE RL: 状態拡張によるほぼ確実に安全な強化学習
- Authors: Aivar Sootla, Alexander I. Cowen-Rivers, Taher Jafferjee, Ziyan Wang,
David Mguni, Jun Wang, Haitham Bou-Ammar
- Abstract要約: 安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
- 参考スコア(独自算出の注目度): 63.25418599322092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Satisfying safety constraints almost surely (or with probability one) can be
critical for deployment of Reinforcement Learning (RL) in real-life
applications. For example, plane landing and take-off should ideally occur with
probability one. We address the problem by introducing Safety Augmented (Saute)
Markov Decision Processes (MDPs), where the safety constraints are eliminated
by augmenting them into the state-space and reshaping the objective. We show
that Saute MDP satisfies the Bellman equation and moves us closer to solving
Safe RL with constraints satisfied almost surely. We argue that Saute MDP
allows to view Safe RL problem from a different perspective enabling new
features. For instance, our approach has a plug-and-play nature, i.e., any RL
algorithm can be "sauteed". Additionally, state augmentation allows for policy
generalization across safety constraints. We finally show that Saute RL
algorithms can outperform their state-of-the-art counterparts when constraint
satisfaction is of high importance.
- Abstract(参考訳): 安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
例えば、飛行機の着陸と離陸は確率1で理想的に起こる。
そこで我々は,安全性強化(saute)マルコフ決定プロセス(mdps)を導入することでこの問題に対処し,安全性制約をステートスペースに拡張し,目標を再構築することで排除する。
我々は,saute mdpがベルマン方程式を満たし,制約をほぼ確実に満たした安全なrlの解決に近づいたことを示す。
Saute MDP は Safe RL 問題を異なる視点から見ることができ、新しい機能を実現することができると我々は主張する。
例えば、我々のアプローチはプラグ・アンド・プレイの性質があり、すなわち任意のRLアルゴリズムを「サンプリング」することができる。
さらに、状態拡張により、安全制約をまたいだポリシーの一般化が可能になる。
最後に、制約満足度が高い場合に、Saute RLアルゴリズムが最先端のアルゴリズムより優れていることを示す。
関連論文リスト
- A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees [2.379828460137829]
そこで我々は,OPSRL(Optimistic-Pessimistic Safe Reinforcement Learning)アルゴリズムと呼ぶモデルベースの安全なRLアルゴリズムを提案する。
学習中の安全性制約に違反することなく, $tildemathcalO(S2sqrtA H7K/ (barC - barC_b)$ cumulative regretを達成できることを示す。
論文 参考訳(メタデータ) (2021-12-01T23:21:48Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Safe Distributional Reinforcement Learning [19.607668635077495]
強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。
分布 RL の設定において制約付き RL の定式化で定式化する。
私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。
論文 参考訳(メタデータ) (2021-02-26T13:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。