論文の概要: Conditioning Hierarchical Reinforcement Learning on Flexible Constraints
- arxiv url: http://arxiv.org/abs/2302.10639v1
- Date: Tue, 21 Feb 2023 12:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 15:21:51.297472
- Title: Conditioning Hierarchical Reinforcement Learning on Flexible Constraints
- Title(参考訳): フレキシブル制約によるコンディショニング階層強化学習
- Authors: Yuxiao Lu, Pradeep Varakantham and Arunesh Sinha
- Abstract要約: 目標に対する安全性 強化学習の設定は通常、軌道上の制約によって処理される。
本稿では、時間的に拡張された意思決定問題の解決に特に関心を寄せる。
- 参考スコア(独自算出の注目度): 14.399481850294558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety in goal directed Reinforcement Learning (RL) settings has typically
been handled through constraints over trajectories and have demonstrated good
performance in primarily short horizon tasks (goal is not too far away). In
this paper, we are specifically interested in the problem of solving temporally
extended decision making problems such as (1) robots that have to clean
different areas in a house while avoiding slippery and unsafe areas (e.g.,
stairs) and retaining enough charge to move to a charging dock; (2) autonomous
electric vehicles that have to reach a far away destination while having to
optimize charging locations along the way; in the presence of complex safety
constraints. Our key contribution is a (safety) Constrained Planning with
Reinforcement Learning (CoP-RL) mechanism that combines a high-level
constrained planning agent (which computes a reward maximizing path from a
given start to a far away goal state while satisfying cost constraints) with a
low-level goal conditioned RL agent (which estimates cost and reward values to
move between nearby states). A major advantage of CoP-RL is that it can handle
constraints on the cost value distribution (e.g., on Conditional Value at Risk,
CVaR, and also on expected value). We perform extensive experiments with
different types of safety constraints to demonstrate the utility of our
approach over leading best approaches in constrained and hierarchical RL.
- Abstract(参考訳): 目標指向強化学習(rl)設定の安全性は通常、軌道上の制約を通じて処理され、主に短地平線タスクにおいて優れたパフォーマンスを示している(ゴールは遠くない)。
本稿では,(1)スリッパや安全でない場所(階段など)を避けて充電ドックに移動するのに十分な充電を保ちながら,住宅内の異なる領域をきれいにしなくてはならないロボット,(2)道順に充電場所を最適化する必要のある遠方の目的地に到達しなければならない自律型電気自動車,複雑な安全制約の存在など,時間的に拡張された意思決定問題を解決することに関心を寄せる。
我々の重要な貢献は、(安全)制約付き強化学習による制約付き計画(CoP-RL)メカニズムで、(コスト制約を満たすことなく、与えられたスタートから遠方の目標状態までの経路を最大化する)高レベルの制約付き計画エージェントと低レベルの目標条件付きRLエージェント(コストと報酬値を推定して近くの状態間を移動させる)を組み合わせる。
CoP-RLの大きな利点は、コスト価値の分布(例えば、リスク条件値、CVaR、および期待値)の制約を処理できることである。
我々は、制約付き階層型RLにおける最良のアプローチを先導するアプローチの有効性を実証するために、様々な種類の安全制約を用いた広範な実験を行う。
関連論文リスト
- Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。
制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。
トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T08:48:46Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Trust Region-Based Safe Distributional Reinforcement Learning for
Multiple Constraints [18.064813206191754]
安全分布型アクタークリティカル(SDAC)と呼ばれる複数の制約に対する信頼領域に基づく安全強化学習アルゴリズムを提案する。
主な貢献は次のとおりである: 1) 多制約問題における不実現可能性問題を管理するための勾配積分法を導入し、理論収束を確実にし、2)低バイアスでリスク-逆制約を推定するTD($lambda$)ターゲット分布を開発する。
論文 参考訳(メタデータ) (2023-01-26T04:05:40Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Towards Safe Reinforcement Learning with a Safety Editor Policy [29.811723497181486]
制約を満たすとともに実用性を最大化する安全強化学習問題を考察する。
我々は、ユーティリティ最大化ポリシーによって出力される潜在的に安全でないアクションを安全なものに変換する安全エディタポリシーを学習する。
提案手法は,制約に順応しながら,優れた実用性能を示す。
論文 参考訳(メタデータ) (2022-01-28T21:32:59Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。