論文の概要: Efficient Off-Policy Safe Reinforcement Learning Using Trust Region
Conditional Value at Risk
- arxiv url: http://arxiv.org/abs/2312.00342v1
- Date: Fri, 1 Dec 2023 04:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:39:23.202009
- Title: Efficient Off-Policy Safe Reinforcement Learning Using Trust Region
Conditional Value at Risk
- Title(参考訳): 信頼領域条件値を用いた効果的なオフポリティ安全強化学習
- Authors: Dohyeong Kim and Songhwai Oh
- Abstract要約: TRCと呼ばれるオンライン安全なRL法は、信頼領域法を用いてCVaR制約されたRL問題を扱う。
複雑な環境下での優れた性能を実現し、安全制約を迅速に満たすためには、RL法を効率的にサンプリングする必要がある。
本稿では,分散シフトの効果を低減できる新しいサロゲート関数を提案するとともに,リプレイバッファから遠く離れないようにするためのアダプティブな信頼領域制約を導入する。
- 参考スコア(独自算出の注目度): 16.176812250762666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to solve a safe reinforcement learning (RL) problem with risk
measure-based constraints. As risk measures, such as conditional value at risk
(CVaR), focus on the tail distribution of cost signals, constraining risk
measures can effectively prevent a failure in the worst case. An on-policy safe
RL method, called TRC, deals with a CVaR-constrained RL problem using a trust
region method and can generate policies with almost zero constraint violations
with high returns. However, to achieve outstanding performance in complex
environments and satisfy safety constraints quickly, RL methods are required to
be sample efficient. To this end, we propose an off-policy safe RL method with
CVaR constraints, called off-policy TRC. If off-policy data from replay buffers
is directly used to train TRC, the estimation error caused by the
distributional shift results in performance degradation. To resolve this issue,
we propose novel surrogate functions, in which the effect of the distributional
shift can be reduced, and introduce an adaptive trust-region constraint to
ensure a policy not to deviate far from replay buffers. The proposed method has
been evaluated in simulation and real-world environments and satisfied safety
constraints within a few steps while achieving high returns even in complex
robotic tasks.
- Abstract(参考訳): 本稿では,リスク尺度に基づく制約で安全強化学習(RL)問題を解決することを目的とする。
リスクの条件値(CVaR)のようなリスク対策は、コスト信号のテール分布に重点を置いているため、最悪の場合の障害を効果的に防止することができる。
TRCと呼ばれるオンラインセーフなRL法は、信頼領域法を用いてCVaR制約されたRL問題に対処し、高いリターンでほぼゼロの制約違反を持つポリシーを生成することができる。
しかし, 複雑な環境において優れた性能を達成し, 安全制約を迅速に満たすためには, rl法を効率的に試料化する必要がある。
そこで本稿では, CVaR制約付き非政治安全RL法について提案する。
リプレイバッファのオフポリシーデータが直接RTCのトレーニングに使用される場合、分散シフトに起因する推定誤差により性能が低下する。
この問題を解決するために,分散シフトの効果を低減できる新しい代理関数を提案し,適応的な信頼領域制約を導入して,バッファの再生から遠く離れないようにする。
提案手法はシミュレーションや実環境において評価され,複雑なロボット作業においても高いリターンを達成しつつ,数ステップで安全性の制約を満たしている。
関連論文リスト
- Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。
本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - TRC: Trust Region Conditional Value at Risk for Safe Reinforcement
Learning [16.176812250762666]
TRCと呼ばれるCVaR制約を持つ信頼領域ベースの安全なRL法を提案する。
まずCVaR上の上界を導出し、その後、信頼領域における微分可能な形で上界を近似する。
他の安全なRL法と比較して、全ての実験で制約を満たす一方、性能は1.93倍向上する。
論文 参考訳(メタデータ) (2023-12-01T04:40:47Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Lyapunov Barrier Policy Optimization [15.364174084072872]
本稿では,lyapunovベースのバリア関数を用いて,トレーニングイテレーション毎にポリシ更新をセーフセットに制限する手法であるlbpoを提案する。
また,本手法により,環境の制約に対して,エージェントの保守性を制御できる。
論文 参考訳(メタデータ) (2021-03-16T17:58:27Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。