論文の概要: Gradient Shaping for Multi-Constraint Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.15127v1
- Date: Sat, 23 Dec 2023 00:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:35:28.088378
- Title: Gradient Shaping for Multi-Constraint Safe Reinforcement Learning
- Title(参考訳): 多制約安全強化学習のための勾配整形
- Authors: Yihang Yao, Zuxin Liu, Zhepeng Cen, Peide Huang, Tingnan Zhang, Wenhao
Yu, Ding Zhao
- Abstract要約: オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。
本稿では,MCセーフなRLアルゴリズムのための統一フレームワークを提案する。
一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエント・シェーピング(GradS)法を導入し、報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
- 参考スコア(独自算出の注目度): 31.297400160104853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online safe reinforcement learning (RL) involves training a policy that
maximizes task efficiency while satisfying constraints via interacting with the
environments. In this paper, our focus lies in addressing the complex
challenges associated with solving multi-constraint (MC) safe RL problems. We
approach the safe RL problem from the perspective of Multi-Objective
Optimization (MOO) and propose a unified framework designed for MC safe RL
algorithms. This framework highlights the manipulation of gradients derived
from constraints. Leveraging insights from this framework and recognizing the
significance of \textit{redundant} and \textit{conflicting} constraint
conditions, we introduce the Gradient Shaping (GradS) method for general
Lagrangian-based safe RL algorithms to improve the training efficiency in terms
of both reward and constraint satisfaction. Our extensive experimentation
demonstrates the effectiveness of our proposed method in encouraging
exploration and learning a policy that improves both safety and reward
performance across various challenging MC safe RL tasks as well as good
scalability to the number of constraints.
- Abstract(参考訳): オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。
本稿では、マルチ制約(MC)セーフなRL問題の解決に関わる複雑な課題に対処することに焦点を当てる。
我々は,Multi-Objective Optimization(MOO)の観点から安全なRL問題にアプローチし,MCセーフなRLアルゴリズム用に設計された統一フレームワークを提案する。
このフレームワークは制約から派生した勾配の操作を強調する。
この枠組みから洞察を得て, 制約条件であるtextit{redundant} と \textit{conflicting} の意義を認識し, 一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエントシェーピング(GradS)法を導入し, 報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
提案手法の有効性を実証し,提案手法の有効性を実証し,様々な課題であるMCセーフRLタスクにおける安全性と報奨性能の向上と,制約数に対するスケーラビリティの向上を図った。
関連論文リスト
- Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - A Survey of Constraint Formulations in Safe Reinforcement Learning [15.593999581562203]
現実世界の問題に強化学習を適用する場合、安全性は重要です。
一般的な安全なRLアプローチは、期待される累積報酬を最大化する制約付き基準に基づいている。
近年のRLの安全性向上努力にもかかわらず、この分野の体系的な理解は依然として困難である。
論文 参考訳(メタデータ) (2024-02-03T04:40:31Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。
本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-14T21:27:10Z) - State-wise Safe Reinforcement Learning: A Survey [5.826308050755618]
ステートワイド制約は、現実世界のアプリケーションにおいて最も一般的な制約の1つです。
本稿では,RLにおける状態制約に対処する既存のアプローチについて概説する。
論文 参考訳(メタデータ) (2023-02-06T21:11:29Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。