論文の概要: Constrained Upper Confidence Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.09377v1
- Date: Sun, 26 Jan 2020 00:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:18:45.026185
- Title: Constrained Upper Confidence Reinforcement Learning
- Title(参考訳): 制約付き上部信頼強化学習
- Authors: Liyuan Zheng, Lillian J. Ratliff
- Abstract要約: 本稿では,報酬関数とコスト関数によって記述される制約が事前に不明な設定に対する高信頼強化学習を拡張した。
我々は,アルゴリズムC-UCRLが,確率1-delta$で学習しながらも,制約を満たすことなく,報酬に対するサブ線形後悔を実現することを示す。
- 参考スコア(独自算出の注目度): 12.919486518128734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constrained Markov Decision Processes are a class of stochastic decision
problems in which the decision maker must select a policy that satisfies
auxiliary cost constraints. This paper extends upper confidence reinforcement
learning for settings in which the reward function and the constraints,
described by cost functions, are unknown a priori but the transition kernel is
known. Such a setting is well-motivated by a number of applications including
exploration of unknown, potentially unsafe, environments. We present an
algorithm C-UCRL and show that it achieves sub-linear regret ($
O(T^{\frac{3}{4}}\sqrt{\log(T/\delta)})$) with respect to the reward while
satisfying the constraints even while learning with probability $1-\delta$.
Illustrative examples are provided.
- Abstract(参考訳): 制約付きマルコフ決定プロセスは、補助的なコスト制約を満たす政策を意思決定者が選択しなければならない確率的決定問題のクラスである。
本稿では、報酬関数とコスト関数によって記述される制約が未定だが、遷移カーネルが知られているような設定に対する高信頼強化学習を拡張する。
このような設定は、未知の、潜在的に安全でない環境の探索を含む多くのアプリケーションによって動機付けられている。
アルゴリズムc-ucrlを提示し,確率1~\delta$の学習でも制約を満たしながら,報酬に対してo(t^{\frac{3}{4}}\sqrt{\log(t/\delta)})$)のサブ線形後悔を達成することを示す。
例を挙げる。
関連論文リスト
- Learning Constrained Markov Decision Processes With Non-stationary Rewards and Constraints [34.7178680288326]
制約付きマルコフ決定プロセス(CMDP)では、逆の報酬と制約があり、よく知られた不合理性の結果、任意のアルゴリズムがサブリニア後悔とサブリニア制約違反を達成できない。
非定常的な報酬や制約のあるCMDPでは、非定常性の増加とともに性能がスムーズに低下するアルゴリズムを提供することで、この負の結果が緩和できることが示される。
論文 参考訳(メタデータ) (2024-05-23T09:48:48Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Recursive Constraints to Prevent Instability in Constrained
Reinforcement Learning [16.019477271828745]
マルコフ決定プロセスにおける決定論的政策の発見という課題を考察する。
この種の問題は難しいことが知られているが、決定論と一様最適性の要求が組み合わされば、学習不安定が生じる。
本稿では,学習不安定性を防止するための制約付き強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-20T02:33:24Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees [2.379828460137829]
そこで我々は,OPSRL(Optimistic-Pessimistic Safe Reinforcement Learning)アルゴリズムと呼ぶモデルベースの安全なRLアルゴリズムを提案する。
学習中の安全性制約に違反することなく, $tildemathcalO(S2sqrtA H7K/ (barC - barC_b)$ cumulative regretを達成できることを示す。
論文 参考訳(メタデータ) (2021-12-01T23:21:48Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。