論文の概要: Quantile Constrained Reinforcement Learning: A Reinforcement Learning
Framework Constraining Outage Probability
- arxiv url: http://arxiv.org/abs/2211.15034v1
- Date: Mon, 28 Nov 2022 03:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:47:28.458776
- Title: Quantile Constrained Reinforcement Learning: A Reinforcement Learning
Framework Constraining Outage Probability
- Title(参考訳): 質的制約付き強化学習:停電確率を制約する強化学習フレームワーク
- Authors: Whiyoung Jung, Myungsik Cho, Jongeui Park, Youngchul Sung
- Abstract要約: 制約付き強化学習(RL)は,与えられた制約を満たすことなく,期待される累積回帰を最大化する最適政策を求めることを目的とする。
本稿では,累積和の分布の量子化を制約するフレームワークであるQuantile Constrained RL(QCRL)を提案する。
- 参考スコア(独自算出の注目度): 16.861004263551447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constrained reinforcement learning (RL) is an area of RL whose objective is
to find an optimal policy that maximizes expected cumulative return while
satisfying a given constraint. Most of the previous constrained RL works
consider expected cumulative sum cost as the constraint. However, optimization
with this constraint cannot guarantee a target probability of outage event that
the cumulative sum cost exceeds a given threshold. This paper proposes a
framework, named Quantile Constrained RL (QCRL), to constrain the quantile of
the distribution of the cumulative sum cost that is a necessary and sufficient
condition to satisfy the outage constraint. This is the first work that tackles
the issue of applying the policy gradient theorem to the quantile and provides
theoretical results for approximating the gradient of the quantile. Based on
the derived theoretical results and the technique of the Lagrange multiplier,
we construct a constrained RL algorithm named Quantile Constrained Policy
Optimization (QCPO). We use distributional RL with the Large Deviation
Principle (LDP) to estimate quantiles and tail probability of the cumulative
sum cost for the implementation of QCPO. The implemented algorithm satisfies
the outage probability constraint after the training period.
- Abstract(参考訳): 制約強化学習(restricted reinforcement learning, rl)は、与えられた制約を満たしながら、期待累積回帰を最大化する最適方針を見つけることを目的とした、rlの領域である。
以前の制約付きrlワークのほとんどは、期待累積和コストを制約として考慮している。
しかし、この制約による最適化は、累積和コストが所定の閾値を超えるような停止事象の目標確率を保証できない。
本稿では,停止制約を満たすために必要な十分条件である累積和コスト分布の量子化を制約する,quantile restricteded rl(qcrl)という枠組みを提案する。
これは、ポリシー勾配定理を量子論に適用する問題に取り組み、量子論の勾配を近似するための理論的結果を提供する最初の研究である。
導出した理論結果とラグランジュ乗算器の手法に基づき、量子量制限ポリシー最適化(qcpo)と呼ばれる制約付きrlアルゴリズムを構築した。
我々は,大偏差原理(LDP)を用いた分布RLを用いて,QCPOの実装における累積和コストの定量値とテール確率を推定する。
実装されたアルゴリズムは、トレーニング期間後の停止確率制約を満たす。
関連論文リスト
- Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching [0.0]
Constrained Reinforcement Learning (CRL)は、従来の強化学習(RL)フレームワークに制約を導入する機械学習のサブセットである。
純粋学習(逆)と制約満足度を切り替えることに依存する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:19:45Z) - A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement
Learning [35.13329809630571]
一般関数近似を用いたオフライン制約付きRLの新しいアルゴリズムであるPrimal-Dual-Critic Algorithm (PDCA)を提案する。
PDCAは批判者によって推定されるラグランジアン関数上の原始双対アルゴリズムを実行する。
PDCAがラグランジアン近傍のサドル点を見つけることは、制約されたRL問題に対してほぼ最適であることを示す。
論文 参考訳(メタデータ) (2023-06-13T14:50:03Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Quantile-Based Policy Optimization for Reinforcement Learning [0.0]
ニューラルネットワークによるポリシー制御動作のパラメータ化と、QPO(Quantile-Based Policy Optimization)と呼ばれる新しいポリシー勾配アルゴリズムを提案する。
数値計算の結果,提案アルゴリズムは量子的基準の下で既存のベースラインアルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2022-01-27T12:01:36Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - A Lyapunov-Based Methodology for Constrained Optimization with Bandit
Feedback [22.17503016665027]
各アクションが未知の関節分布からランダムな報酬、コスト、ペナルティを返す問題を考える。
我々は、$tt LyOn$という新しい低複雑さアルゴリズムを提案し、$O(sqrtBlog B)$ regretと$O(log B/B)$ constraint-violationを達成することを証明した。
計算コストの低い$tt LyOn$は、Lyapunovをベースとしたアルゴリズム設計手法が制約付き帯域最適化問題の解決に有効であることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T16:12:07Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。