論文の概要: Resilient Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.17194v2
- Date: Fri, 29 Dec 2023 21:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 19:08:28.021168
- Title: Resilient Constrained Reinforcement Learning
- Title(参考訳): 弾力性制約強化学習
- Authors: Dongsheng Ding and Zhengyan Huan and Alejandro Ribeiro
- Abstract要約: 本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
- 参考スコア(独自算出の注目度): 87.4374430686956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study a class of constrained reinforcement learning (RL) problems in which
multiple constraint specifications are not identified before training. It is
challenging to identify appropriate constraint specifications due to the
undefined trade-off between the reward maximization objective and the
constraint satisfaction, which is ubiquitous in constrained decision-making. To
tackle this issue, we propose a new constrained RL approach that searches for
policy and constraint specifications together. This method features the
adaptation of relaxing the constraint according to a relaxation cost introduced
in the learning objective. Since this feature mimics how ecological systems
adapt to disruptions by altering operation, our approach is termed as resilient
constrained RL. Specifically, we provide a set of sufficient conditions that
balance the constraint satisfaction and the reward maximization in notion of
resilient equilibrium, propose a tractable formulation of resilient constrained
policy optimization that takes this equilibrium as an optimal solution, and
advocate two resilient constrained policy search algorithms with non-asymptotic
convergence guarantees on the optimality gap and constraint satisfaction.
Furthermore, we demonstrate the merits and the effectiveness of our approach in
computational experiments.
- Abstract(参考訳): 本研究では,複数の制約仕様をトレーニング前に特定しない制約強化学習(rl)問題のクラスについて検討する。
報酬最大化目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
この問題に対処するために、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
本手法は、学習目的に導入される緩和コストに応じて制約を緩和する適応を特徴とする。
この特徴は、生態系が操作を変えることによって破壊に適応する様子を模倣するので、我々のアプローチは弾力性制約付きRLと呼ばれる。
具体的には、制約満足度と弾力性均衡の概念による報酬の最大化を両立させる十分条件を提供し、この均衡を最適解とする弾力性制約性ポリシー最適化の扱いやすい定式化を提案し、最適性ギャップと制約満足度に対する非漸近収束性保証を持つ2つの弾力性制約付きポリシー探索アルゴリズムを提唱する。
さらに,計算実験において,本手法の有効性と有効性を示す。
関連論文リスト
- Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching [0.0]
Constrained Reinforcement Learning (CRL)は、従来の強化学習(RL)フレームワークに制約を導入する機械学習のサブセットである。
純粋学習(逆)と制約満足度を切り替えることに依存する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:19:45Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - A Globally Convergent Evolutionary Strategy for Stochastic Constrained
Optimization with Applications to Reinforcement Learning [0.6445605125467573]
進化的戦略は、強化学習における複雑な最適化問題に対して、競合する性能のレベルを達成することが示されている。
しかし、制約された問題を最適化する進化戦略の収束保証は文献に欠けている。
論文 参考訳(メタデータ) (2022-02-21T17:04:51Z) - Constrained Reinforcement Learning for Dynamic Optimization under
Uncertainty [1.5797349391370117]
動的リアルタイム最適化(DRTO)は、最適動作条件をリアルタイムに計算する必要があるという事実から難しい課題である。
DRTOの産業応用における主要なボトルネックは、不確実性の存在である。
これらの課題に対応するために,制約付き強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-04T10:17:35Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。