論文の概要: Trust Region-Based Safe Distributional Reinforcement Learning for
Multiple Constraints
- arxiv url: http://arxiv.org/abs/2301.10923v2
- Date: Sun, 24 Dec 2023 02:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:20:03.372712
- Title: Trust Region-Based Safe Distributional Reinforcement Learning for
Multiple Constraints
- Title(参考訳): 複数制約に対する信頼領域に基づく安全分布強化学習
- Authors: Dohyeong Kim, Kyungjae Lee, Songhwai Oh
- Abstract要約: 安全分布型アクタークリティカル(SDAC)と呼ばれる複数の制約に対する信頼領域に基づく安全強化学習アルゴリズムを提案する。
主な貢献は次のとおりである: 1) 多制約問題における不実現可能性問題を管理するための勾配積分法を導入し、理論収束を確実にし、2)低バイアスでリスク-逆制約を推定するTD($lambda$)ターゲット分布を開発する。
- 参考スコア(独自算出の注目度): 18.064813206191754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In safety-critical robotic tasks, potential failures must be reduced, and
multiple constraints must be met, such as avoiding collisions, limiting energy
consumption, and maintaining balance. Thus, applying safe reinforcement
learning (RL) in such robotic tasks requires to handle multiple constraints and
use risk-averse constraints rather than risk-neutral constraints. To this end,
we propose a trust region-based safe RL algorithm for multiple constraints
called a safe distributional actor-critic (SDAC). Our main contributions are as
follows: 1) introducing a gradient integration method to manage infeasibility
issues in multi-constrained problems, ensuring theoretical convergence, and 2)
developing a TD($\lambda$) target distribution to estimate risk-averse
constraints with low biases. We evaluate SDAC through extensive experiments
involving multi- and single-constrained robotic tasks. While maintaining high
scores, SDAC shows 1.93 times fewer steps to satisfy all constraints in
multi-constrained tasks and 1.78 times fewer constraint violations in
single-constrained tasks compared to safe RL baselines. Code is available at:
https://github.com/rllab-snu/Safe-Distributional-Actor-Critic.
- Abstract(参考訳): 安全クリティカルなロボットタスクでは、潜在的な障害を低減し、衝突の回避、エネルギー消費の制限、バランスの維持など、複数の制約を満たさなければならない。
したがって、ロボットタスクに安全な強化学習(RL)を適用するには、複数の制約を処理し、リスク中立的な制約ではなく、リスク逆制約を使用する必要がある。
そこで本稿では,安全分散アクタ批判 (SDAC) と呼ばれる複数の制約に対する信頼領域に基づく安全なRLアルゴリズムを提案する。
主な貢献は以下の通りである。
1)多制約問題における不実現性問題を管理し、理論的収束を確保するための勾配積分法の導入
2) 低バイアスのリスク逆制約を推定するためにTD($\lambda$)ターゲット分布を開発する。
複数制約のロボットタスクを含む広範囲な実験を通じてSDACを評価する。
高得点を維持しながら、SDACはマルチ制約タスクにおける全ての制約を満たすための1.93倍のステップを示し、シングル制約タスクにおける制約違反は安全なRLベースラインに比べて1.78倍少ない。
コードは、https://github.com/rllab-snu/Safe-Distributional-Actor-Criticで入手できる。
関連論文リスト
- Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning [13.245000585002858]
多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。
制約付き多目的勾配集約アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoGAMO)を提案する。
論文 参考訳(メタデータ) (2024-03-01T04:57:13Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。