論文の概要: Recursive Constraints to Prevent Instability in Constrained
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.07958v1
- Date: Thu, 20 Jan 2022 02:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 13:30:31.263924
- Title: Recursive Constraints to Prevent Instability in Constrained
Reinforcement Learning
- Title(参考訳): 制約付き強化学習における不安定性防止のための再帰的制約
- Authors: Jaeyoung Lee, Sean Sedwards and Krzysztof Czarnecki
- Abstract要約: マルコフ決定プロセスにおける決定論的政策の発見という課題を考察する。
この種の問題は難しいことが知られているが、決定論と一様最適性の要求が組み合わされば、学習不安定が生じる。
本稿では,学習不安定性を防止するための制約付き強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 16.019477271828745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the challenge of finding a deterministic policy for a Markov
decision process that uniformly (in all states) maximizes one reward subject to
a probabilistic constraint over a different reward. Existing solutions do not
fully address our precise problem definition, which nevertheless arises
naturally in the context of safety-critical robotic systems. This class of
problem is known to be hard, but the combined requirements of determinism and
uniform optimality can create learning instability. In this work, after
describing and motivating our problem with a simple example, we present a
suitable constrained reinforcement learning algorithm that prevents learning
instability, using recursive constraints. Our proposed approach admits an
approximative form that improves efficiency and is conservative w.r.t. the
constraint.
- Abstract(参考訳): 我々は、(すべての州において)異なる報酬に対する確率的制約の下で1つの報酬を最大化するマルコフ決定過程に対する決定論的方針を見つけることの課題を考える。
既存のソリューションは、安全クリティカルなロボットシステムの文脈で自然に発生する問題の正確な定義に完全には対応していない。
このクラスは難しいことが知られているが、決定論と一様最適性の複合要求は学習の不安定性を引き起こす可能性がある。
そこで本研究では,簡単な例で問題の説明と動機付けを行い,再帰的制約を用いて学習の不安定さを防止できる適切な制約付き強化学習アルゴリズムを提案する。
提案手法は効率を向上する近似形式を認め,その制約に対して保守的である。
関連論文リスト
- Learning Adversarial MDPs with Stochastic Hard Constraints [37.24692425018]
本研究では,制約付き意思決定プロセスにおけるオンライン学習問題について,対向的損失と厳しい制約を伴う検討を行った。
我々は,各エピソードの制約を高い確率で満たしながら,サブ線形後悔を実現するアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-06T12:49:08Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - On Bellman's principle of optimality and Reinforcement learning for
safety-constrained Markov decision process [0.0]
安全強化学習の枠組みである安全制約付きマルコフ決定プロセスの最適性について検討する。
データからラグランジアンを学習するための改良された$Q$-learningアルゴリズムを構築した。
論文 参考訳(メタデータ) (2023-02-25T20:36:41Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Assured RL: Reinforcement Learning with Almost Sure Constraints [0.0]
我々は、状態遷移とアクション三重項に対するほぼ確実に制約のあるマルコフ決定過程の最適方針を求める問題を考える。
バリアベースの分解を満たす値とアクション値関数を定義する。
我々は,Q-Learningに基づくバリア学習アルゴリズムを開発し,そのような安全でない状態-動作ペアを同定する。
論文 参考訳(メタデータ) (2020-12-24T00:29:28Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。