Fugu-MT 論文翻訳(概要): Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation

論文の概要: Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation

arxiv url: http://arxiv.org/abs/2405.01677v1
Date: Thu, 2 May 2024 19:07:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-06 14:44:38.560259
Title: Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation
Title（参考訳）: 安全強化学習のためのバランス・リワードと安全最適化:グラディエント・マニピュレーションの観点から
Authors: Shangding Gu, Bilgehan Sel, Yuhao Ding, Lu Wang, Qingwei Lin, Ming Jin, Alois Knoll,
Abstract要約: 探索中の報酬と安全の間のトレードオフを管理することは、大きな課題である。本研究では,勾配操作の理論を活用することによって,この矛盾する関係に対処することを目的とする。実験の結果,提案アルゴリズムは報酬のバランスと安全性の最適化の観点から,最先端のベースラインよりも優れていた。
参考スコア（独自算出の注目度）: 26.244121960815907
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensuring the safety of Reinforcement Learning (RL) is crucial for its deployment in real-world applications. Nevertheless, managing the trade-off between reward and safety during exploration presents a significant challenge. Improving reward performance through policy adjustments may adversely affect safety performance. In this study, we aim to address this conflicting relation by leveraging the theory of gradient manipulation. Initially, we analyze the conflict between reward and safety gradients. Subsequently, we tackle the balance between reward and safety optimization by proposing a soft switching policy optimization method, for which we provide convergence analysis. Based on our theoretical examination, we provide a safe RL framework to overcome the aforementioned challenge, and we develop a Safety-MuJoCo Benchmark to assess the performance of safe RL algorithms. Finally, we evaluate the effectiveness of our method on the Safety-MuJoCo Benchmark and a popular safe benchmark, Omnisafe. Experimental results demonstrate that our algorithms outperform several state-of-the-art baselines in terms of balancing reward and safety optimization.
Abstract（参考訳）: RL(Reinforcement Learning)の安全性の確保は、現実世界のアプリケーションへの展開に不可欠である。それでも、探査中の報酬と安全の間のトレードオフを管理することは大きな課題である。政策調整による報酬性能の向上は、安全性能に悪影響を及ぼす可能性がある。本研究では,勾配操作の理論を活用することによって,この矛盾する関係に対処することを目的とする。最初は報酬と安全勾配の対立を分析した。その後,ソフトスイッチングポリシ最適化手法を提案することで,報酬と安全性の最適化のバランスに取り組み,収束解析を行う。理論的検討に基づき、上記の課題を克服するための安全なRLフレームワークを提供し、安全なRLアルゴリズムの性能を評価するためのSafety-MuJoCoベンチマークを開発する。最後に,この手法の有効性を,Safety-MuJoCoベンチマークと一般的なセーフベンチマークであるOmnisafeで評価した。実験の結果,提案アルゴリズムは報酬のバランスと安全性の最適化の観点から,最先端のベースラインよりも優れていた。

関連論文リスト

Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards [23.15178050525514]
セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントをトレーニングして、安全性の制約を守りながら、実環境におけるパフォーマンスを最大化することを目的としている。本稿では,安全なポリシ関数学習を可能にする,SMPO(Safety Modulated Policy Optimization)と呼ばれる新しい安全なRL手法を提案する。
論文参考訳（メタデータ） (2025-04-03T21:35:22Z)
Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-27T17:31:21Z)
Safety Optimized Reinforcement Learning via Multi-Objective Policy Optimization [3.425378723819911]
セーフ強化学習(Safe reinforcement learning, Safe RL)とは、RLアルゴリズムが制約を犯すのを防ぐ技術である。本稿では,多目的ポリシー最適化フレームワークに基づく新しいモデルフリーなSafe RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-23T08:58:38Z)
Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文参考訳（メタデータ） (2023-09-24T02:36:42Z)
Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2023-07-27T15:19:45Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Efficient Exploration Using Extra Safety Budget in Constrained Policy Optimization [15.483557012655927]
本稿では, 探索効率と制約満足度とのバランスをとるために, ESB-CPO (Constrained Policy Optimization with Extra Safety Budget) というアルゴリズムを提案する。提案手法は,ベースラインと比較して,同じコスト制限下での顕著な性能向上を実現している。
論文参考訳（メタデータ） (2023-02-28T06:16:34Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2022-05-13T16:34:36Z)
Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。 LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文参考訳（メタデータ） (2022-01-24T17:02:22Z)
Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文参考訳（メタデータ） (2020-10-27T17:54:25Z)
Safe Reinforcement Learning in Constrained Markov Decision Processes [20.175139766171277]
本稿では,マルコフ決定過程を未知の安全制約下で探索・最適化するアルゴリズムSNO-MDPを提案する。我々は、安全制約の満足度と累積報酬のほぼ最適性の両方を理論的に保証する。
論文参考訳（メタデータ） (2020-08-15T02:20:23Z)
Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文参考訳（メタデータ） (2020-02-26T00:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。