論文の概要: Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.10639v2
- Date: Tue, 9 Jan 2024 05:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 20:58:04.049627
- Title: Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning
- Title(参考訳): 制約付き階層的強化学習による長期・リッチ制約タスクの処理
- Authors: Yuxiao Lu, Arunesh Sinha and Pradeep Varakantham
- Abstract要約: 目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
- 参考スコア(独自算出の注目度): 20.280636126917614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety in goal directed Reinforcement Learning (RL) settings has typically
been handled through constraints over trajectories and have demonstrated good
performance in primarily short horizon tasks. In this paper, we are
specifically interested in the problem of solving temporally extended decision
making problems such as robots cleaning different areas in a house while
avoiding slippery and unsafe areas (e.g., stairs) and retaining enough charge
to move to a charging dock; in the presence of complex safety constraints. Our
key contribution is a (safety) Constrained Search with Hierarchical
Reinforcement Learning (CoSHRL) mechanism that combines an upper level
constrained search agent (which computes a reward maximizing policy from a
given start to a far away goal state while satisfying cost constraints) with a
low-level goal conditioned RL agent (which estimates cost and reward values to
move between nearby states). A major advantage of CoSHRL is that it can handle
constraints on the cost value distribution (e.g., on Conditional Value at Risk,
CVaR) and can adjust to flexible constraint thresholds without retraining. We
perform extensive experiments with different types of safety constraints to
demonstrate the utility of our approach over leading approaches in constrained
and hierarchical RL.
- Abstract(参考訳): 目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理され、主に短地平線タスクで優れたパフォーマンスを示す。
本稿では,住宅内の異なるエリアを掃除するロボットが,滑動や安全でないエリア(階段など)を避けながら充電ドックに移動するのに十分な料金を保ちながら,複雑な安全制約が存在する場合に,時間的に拡張された意思決定問題を解決する問題に特に関心を寄せる。
我々の重要な貢献は、(安全)階層強化学習による制約付き検索(CoSHRL)機構であり、(コスト制約を満たすことなく、与えられた開始から遠方の目標状態までポリシーを最大化する報酬を計算)低レベルの目標条件付きRLエージェント(コストと報酬値を推定し、近くの状態間を移動させる報酬を推定する報酬を最大化する)を結合する。
CoSHRLの大きな利点は、コスト価値分布の制約(例えば、CVaRの条件値)を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
我々は,制約付きおよび階層的RLにおける先行的アプローチに対するアプローチの有用性を示すために,様々な種類の安全制約を用いた広範な実験を行った。
関連論文リスト
- Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。
制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。
トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T08:48:46Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Trust Region-Based Safe Distributional Reinforcement Learning for
Multiple Constraints [18.064813206191754]
安全分布型アクタークリティカル(SDAC)と呼ばれる複数の制約に対する信頼領域に基づく安全強化学習アルゴリズムを提案する。
主な貢献は次のとおりである: 1) 多制約問題における不実現可能性問題を管理するための勾配積分法を導入し、理論収束を確実にし、2)低バイアスでリスク-逆制約を推定するTD($lambda$)ターゲット分布を開発する。
論文 参考訳(メタデータ) (2023-01-26T04:05:40Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Towards Safe Reinforcement Learning with a Safety Editor Policy [29.811723497181486]
制約を満たすとともに実用性を最大化する安全強化学習問題を考察する。
我々は、ユーティリティ最大化ポリシーによって出力される潜在的に安全でないアクションを安全なものに変換する安全エディタポリシーを学習する。
提案手法は,制約に順応しながら,優れた実用性能を示す。
論文 参考訳(メタデータ) (2022-01-28T21:32:59Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。