Fugu-MT 論文翻訳(概要): SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization

論文の概要: SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization

arxiv url: http://arxiv.org/abs/2311.00880v1
Date: Wed, 1 Nov 2023 22:12:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 15:30:04.003153
Title: SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization
Title（参考訳）: SCPO:安全批判政策最適化による安全強化学習
Authors: Jaafar Mhamed and Shangding Gu
Abstract要約: 本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
参考スコア（独自算出の注目度）: 1.3597551064547502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Incorporating safety is an essential prerequisite for broadening the practical applications of reinforcement learning in real-world scenarios. To tackle this challenge, Constrained Markov Decision Processes (CMDPs) are leveraged, which introduce a distinct cost function representing safety violations. In CMDPs' settings, Lagrangian relaxation technique has been employed in previous algorithms to convert constrained optimization problems into unconstrained dual problems. However, these algorithms may inaccurately predict unsafe behavior, resulting in instability while learning the Lagrange multiplier. This study introduces a novel safe reinforcement learning algorithm, Safety Critic Policy Optimization (SCPO). In this study, we define the safety critic, a mechanism that nullifies rewards obtained through violating safety constraints. Furthermore, our theoretical analysis indicates that the proposed algorithm can automatically balance the trade-off between adhering to safety constraints and maximizing rewards. The effectiveness of the SCPO algorithm is empirically validated by benchmarking it against strong baselines.
Abstract（参考訳）: 現実のシナリオにおける強化学習の実践的応用を拡大するためには,安全性を取り入れることが不可欠である。この課題に対処するため、CMDP(Constrained Markov Decision Processs)が活用され、安全違反を表すコスト関数が導入された。 cmdpsの設定では、ラグランジアン緩和法が以前のアルゴリズムで用いられ、制約付き最適化問題を制約なし双対問題に変換する。しかし、これらのアルゴリズムは不正確に安全でない振る舞いを予測でき、ラグランジュ乗数を学習しながら不安定になる。本研究は,新たな安全強化学習アルゴリズムである安全批判ポリシー最適化(SCPO)を紹介する。本研究では,安全上の制約を破って得られる報酬を無効化するメカニズムである安全批判を規定する。さらに,提案アルゴリズムは,安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることを示す。 SCPOアルゴリズムの有効性は、強いベースラインに対してベンチマークすることで実証的に検証される。

関連論文リスト

Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Safe Reinforcement Learning using Finite-Horizon Gradient-based Estimation [25.552241659930445]
セーフ強化学習(Safe RL)の主な側面は、次のポリシーの制約条件を推定することである。既存の推定方法は無限水平割引利得関数に依存している。深部安全RLにおける有限水平非分散制約の第一推定法を提案する。
論文参考訳（メタデータ） (2024-12-15T10:05:23Z)
Safe Reinforcement Learning for Constrained Markov Decision Processes with Stochastic Stopping Time [0.6554326244334868]
安全制約付きマルコフ決定過程に対するオンライン強化学習アルゴリズムを提案する。学習方針は高い信頼を持って安全であることを示す。また、プロキシセットと呼ばれる状態空間のサブセットを定義することで、効率的な探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-03-23T20:22:30Z)
Robust Safe Reinforcement Learning under Adversarial Disturbances [12.145611442959602]
現実世界の制御タスクに強化学習を適用する場合、安全が主な関心事である。既存の安全な強化学習アルゴリズムは、外部の障害をほとんど考慮しない。本稿では,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-11T05:34:46Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。 P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。 P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-05-24T06:15:51Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-16T13:16:22Z)
Chance Constrained Policy Optimization for Process Control and Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-30T14:20:35Z)
Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文参考訳（メタデータ） (2020-02-26T00:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。