論文の概要: Multi-Constraint Safe RL with Objective Suppression for Safety-Critical
Applications
- arxiv url: http://arxiv.org/abs/2402.15650v1
- Date: Fri, 23 Feb 2024 23:22:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:42:15.432413
- Title: Multi-Constraint Safe RL with Objective Suppression for Safety-Critical
Applications
- Title(参考訳): 安全臨界応用のための目的抑制型マルチ制約安全RL
- Authors: Zihan Zhou, Jonathan Booher, Wei Liu, Aleksandr Petiushko, Animesh
Garg
- Abstract要約: 本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
我々は、自律運転領域を含む2つのマルチ制約安全領域において、客観抑制をベンチマークする。
- 参考スコア(独自算出の注目度): 80.99495309420959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning tasks with multiple constraints are a challenging
domain despite being very common in the real world. To address this challenge,
we propose Objective Suppression, a novel method that adaptively suppresses the
task reward maximizing objectives according to a safety critic. We benchmark
Objective Suppression in two multi-constraint safety domains, including an
autonomous driving domain where any incorrect behavior can lead to disastrous
consequences. Empirically, we demonstrate that our proposed method, when
combined with existing safe RL algorithms, can match the task reward achieved
by our baselines with significantly fewer constraint violations.
- Abstract(参考訳): 複数の制約のある安全な強化学習タスクは、現実世界で非常に一般的であるにもかかわらず、難しい領域です。
そこで本研究では,目的を最大化するタスク報酬を安全評論家に適応的に抑制する新しい手法であるobjective reductionを提案する。
我々は、不正な行動が悲惨な結果をもたらす可能性のある自動運転ドメインを含む、2つのマルチコンストラクション安全ドメインにおける客観的な抑制をベンチマークする。
実験により,提案手法は,既存の安全RLアルゴリズムと組み合わせることで,ベースラインが達成したタスク報酬と極めて少ない制約違反で一致できることを実証した。
関連論文リスト
- Gradient Shaping for Multi-Constraint Safe Reinforcement Learning [31.297400160104853]
オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。
本稿では,MCセーフなRLアルゴリズムのための統一フレームワークを提案する。
一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエント・シェーピング(GradS)法を導入し、報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
論文 参考訳(メタデータ) (2023-12-23T00:55:09Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Trust Region-Based Safe Distributional Reinforcement Learning for
Multiple Constraints [18.064813206191754]
安全分布型アクタークリティカル(SDAC)と呼ばれる複数の制約に対する信頼領域に基づく安全強化学習アルゴリズムを提案する。
主な貢献は次のとおりである: 1) 多制約問題における不実現可能性問題を管理するための勾配積分法を導入し、理論収束を確実にし、2)低バイアスでリスク-逆制約を推定するTD($lambda$)ターゲット分布を開発する。
論文 参考訳(メタデータ) (2023-01-26T04:05:40Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Towards Safe Reinforcement Learning with a Safety Editor Policy [29.811723497181486]
制約を満たすとともに実用性を最大化する安全強化学習問題を考察する。
我々は、ユーティリティ最大化ポリシーによって出力される潜在的に安全でないアクションを安全なものに変換する安全エディタポリシーを学習する。
提案手法は,制約に順応しながら,優れた実用性能を示す。
論文 参考訳(メタデータ) (2022-01-28T21:32:59Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Safe Deep Reinforcement Learning for Multi-Agent Systems with Continuous
Action Spaces [5.553946791700077]
深層政策ネットワークに安全層を追加することにより,多エージェントの深層決定性政策勾配(MADDPG)フレームワークを強化する。
そこで本研究では,ソフト制約を用いた動作補正ステップにおいて,実現不可能な問題を回避することを提案する。
論文 参考訳(メタデータ) (2021-08-09T11:33:46Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。