論文の概要: Safety Optimized Reinforcement Learning via Multi-Objective Policy
Optimization
- arxiv url: http://arxiv.org/abs/2402.15197v1
- Date: Fri, 23 Feb 2024 08:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:10:28.519764
- Title: Safety Optimized Reinforcement Learning via Multi-Objective Policy
Optimization
- Title(参考訳): 多目的政策最適化による安全最適化強化学習
- Authors: Homayoun Honari, Mehran Ghafarian Tamizi, Homayoun Najjaran
- Abstract要約: セーフ強化学習(Safe reinforcement learning, Safe RL)とは、RLアルゴリズムが制約を犯すのを防ぐ技術である。
本稿では,多目的ポリシー最適化フレームワークに基づく新しいモデルフリーなSafe RLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.425378723819911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe reinforcement learning (Safe RL) refers to a class of techniques that
aim to prevent RL algorithms from violating constraints in the process of
decision-making and exploration during trial and error. In this paper, a novel
model-free Safe RL algorithm, formulated based on the multi-objective policy
optimization framework is introduced where the policy is optimized towards
optimality and safety, simultaneously. The optimality is achieved by the
environment reward function that is subsequently shaped using a safety critic.
The advantage of the Safety Optimized RL (SORL) algorithm compared to the
traditional Safe RL algorithms is that it omits the need to constrain the
policy search space. This allows SORL to find a natural tradeoff between safety
and optimality without compromising the performance in terms of either safety
or optimality due to strict search space constraints. Through our theoretical
analysis of SORL, we propose a condition for SORL's converged policy to
guarantee safety and then use it to introduce an aggressiveness parameter that
allows for fine-tuning the mentioned tradeoff. The experimental results
obtained in seven different robotic environments indicate a considerable
reduction in the number of safety violations along with higher, or competitive,
policy returns, in comparison to six different state-of-the-art Safe RL
methods. The results demonstrate the significant superiority of the proposed
SORL algorithm in safety-critical applications.
- Abstract(参考訳): 安全強化学習(safe reinforcement learning、safe rl)は、rlアルゴリズムが試行錯誤の過程における意思決定と探索の過程の制約に違反することを防ぐための手法である。
本稿では,多目的政策最適化フレームワークに基づいて定式化した新しいモデルフリー・セーフ・rlアルゴリズムを導入し,ポリシーの最適性と安全性を同時に最適化する。
最適性は、その後安全評論家を用いて形づくられる環境報酬関数によって達成される。
従来のSafe RLアルゴリズムと比較して、Safe Optimized RL (SORL)アルゴリズムの利点は、ポリシー検索空間を制限する必要がなくなることである。
これによりSORLは、厳密な検索空間の制約により、安全性と最適性の両方の観点から性能を損なうことなく、安全性と最適性の間の自然なトレードオフを見つけることができる。
SORLの理論的解析を通じて、安全を保証するためのSORLの収束ポリシーの条件を提案し、それを用いて、上記トレードオフを微調整できる攻撃性パラメータを導入する。
7つの異なるロボット環境で得られた実験結果は、6つの最先端のSafe RL法と比較して、安全性違反の数と、より高い、または競争力のあるポリシーリターンを著しく減少させることを示している。
その結果,安全クリティカルな応用におけるSORLアルゴリズムの有意な優位性を示した。
関連論文リスト
- Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation [26.244121960815907]
探索中の報酬と安全の間のトレードオフを管理することは、大きな課題である。
本研究では,勾配操作の理論を活用することによって,この矛盾する関係に対処することを目的とする。
実験の結果,提案アルゴリズムは報酬のバランスと安全性の最適化の観点から,最先端のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-05-02T19:07:14Z) - Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。
違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。
安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-24T02:36:42Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe reinforcement learning for multi-energy management systems with
known constraint functions [0.0]
強化学習(Reinforcement Learning, RL)は, 多エネルギー管理システムにおける最適制御手法である。
我々はSafeFallbackとGiveSafeという2つの新しい安全なRL手法を提案する。
シミュレーションされたマルチエネルギーシステムのケーススタディでは、どちらの手法も非常に高い実用性から始めることを示した。
論文 参考訳(メタデータ) (2022-07-08T11:33:53Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - Safe Distributional Reinforcement Learning [19.607668635077495]
強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。
分布 RL の設定において制約付き RL の定式化で定式化する。
私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。
論文 参考訳(メタデータ) (2021-02-26T13:03:27Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。