論文の概要: Towards Safe Reinforcement Learning with a Safety Editor Policy
- arxiv url: http://arxiv.org/abs/2201.12427v1
- Date: Fri, 28 Jan 2022 21:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:39:42.703576
- Title: Towards Safe Reinforcement Learning with a Safety Editor Policy
- Title(参考訳): 安全編集者政策による安全強化学習に向けて
- Authors: Haonan Yu, Wei Xu, Haichao Zhang
- Abstract要約: 制約を満たすとともに実用性を最大化する安全強化学習問題を考察する。
我々は、ユーティリティ最大化ポリシーによって出力される潜在的に安全でないアクションを安全なものに変換する安全エディタポリシーを学習する。
提案手法は,制約に順応しながら,優れた実用性能を示す。
- 参考スコア(独自算出の注目度): 29.811723497181486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the safe reinforcement learning (RL) problem of maximizing
utility while satisfying provided constraints. Since we do not assume any prior
knowledge or pre-training of the safety concept, we are interested in
asymptotic constraint satisfaction. A popular approach in this line of research
is to combine the Lagrangian method with a model-free RL algorithm to adjust
the weight of the constraint reward dynamically. It relies on a single policy
to handle the conflict between utility and constraint rewards, which is often
challenging. Inspired by the safety layer design (Dalal et al., 2018), we
propose to separately learn a safety editor policy that transforms potentially
unsafe actions output by a utility maximizer policy into safe ones. The safety
editor is trained to maximize the constraint reward while minimizing a hinge
loss of the utility Q values of actions before and after the edit. On 12 custom
Safety Gym (Ray et al., 2019) tasks and 2 safe racing tasks with very harsh
constraint thresholds, our approach demonstrates outstanding utility
performance while complying with the constraints. Ablation studies reveal that
our two-policy design is critical. Simply doubling the model capacity of
typical single-policy approaches will not lead to comparable results. The Q
hinge loss is also important in certain circumstances, and replacing it with
the usual L2 distance could fail badly.
- Abstract(参考訳): 制約を満たすとともに実用性を最大化する安全強化学習(RL)問題を考察する。
我々は、安全概念の事前知識や事前訓練を前提としないので、漸近的制約満足度に興味を持っている。
この研究で一般的なアプローチは、ラグランジアン法とモデルなしRLアルゴリズムを組み合わせることで、制約報酬の重み付けを動的に調整することである。
効用と制約報酬の衝突に対処するための単一のポリシーに依存しており、しばしば困難である。
安全層設計(dalal et al., 2018)に着想を得た我々は、ユーティリティ最大化ポリシーによって出力される潜在的安全でないアクションを安全なものに変換する安全エディタポリシーを別々に学ぶことを提案する。
安全編集者は、編集前後のアクションの実用Q値のヒンジ損失を最小限に抑えつつ、制約報酬を最大化するように訓練される。
厳格な制約しきい値を持つ12のカスタムセーフティジム(ray et al., 2019)と2つのセーフレーシングタスクにおいて,本手法は制約に準拠しながら優れた実用性能を示す。
アブレーション研究は、我々の2つの政治デザインが重要であることを示している。
典型的な単一政治アプローチのモデル容量を2倍にするだけでは、同等の結果にはならない。
特定の状況ではQヒンジ損失も重要であり、通常のL2距離に置き換えるには失敗する可能性がある。
関連論文リスト
- One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion
Model [23.93820548551533]
FISOR(FeasIbility-guided Safe Offline RL)を提案する。
FISORでは、変換された最適化問題に対する最適ポリシーは、重み付けされた行動クローニングの特別な形態で導出することができる。
FISORは、ほとんどのタスクにおいて最上位のリターンを達成しつつ、すべてのタスクにおいて安全満足を保証できる唯一の方法であることを示す。
論文 参考訳(メタデータ) (2024-01-19T14:05:09Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。