論文の概要: Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss
- arxiv url: http://arxiv.org/abs/2003.00660v3
- Date: Mon, 18 Oct 2021 04:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:39:23.831066
- Title: Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss
- Title(参考訳): 逆損失を伴うCMDPにおける上位信頼度2次元強化学習
- Authors: Shuang Qiu, Xiaohan Wei, Zhuoran Yang, Jieping Ye, Zhaoran Wang
- Abstract要約: マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
- 参考スコア(独自算出の注目度): 145.54544979467872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider online learning for episodic stochastically constrained Markov
decision processes (CMDPs), which plays a central role in ensuring the safety
of reinforcement learning. Here the loss function can vary arbitrarily across
the episodes, and both the loss received and the budget consumption are
revealed at the end of each episode. Previous works solve this problem under
the restrictive assumption that the transition model of the Markov decision
processes (MDPs) is known a priori and establish regret bounds that depend
polynomially on the cardinalities of the state space $\mathcal{S}$ and the
action space $\mathcal{A}$. In this work, we propose a new \emph{upper
confidence primal-dual} algorithm, which only requires the trajectories sampled
from the transition model. In particular, we prove that the proposed algorithm
achieves $\widetilde{\mathcal{O}}(L|\mathcal{S}|\sqrt{|\mathcal{A}|T})$ upper
bounds of both the regret and the constraint violation, where $L$ is the length
of each episode. Our analysis incorporates a new high-probability drift
analysis of Lagrange multiplier processes into the celebrated regret analysis
of upper confidence reinforcement learning, which demonstrates the power of
"optimism in the face of uncertainty" in constrained online learning.
- Abstract(参考訳): 本稿では,強化学習の安全性を確保する上で中心的な役割を果たすマルコフ決定過程(CMDP)のオンライン学習について考察する。
ここで、損失関数はエピソード毎に任意に変化し、各エピソードの最後に受信した損失と予算消費の両方を明らかにする。
これまでの研究は、マルコフ決定過程(MDPs)の遷移モデルが先行性として知られ、状態空間 $\mathcal{S}$ と作用空間 $\mathcal{A}$ の濃度に多項式的に依存する後悔境界を確立するという制限的な仮定の下でこの問題を解決する。
本研究では,遷移モデルから標本化した軌跡のみを必要とする,新しい 'emph{upper confidence primal-dual} アルゴリズムを提案する。
特に、提案アルゴリズムが、後悔と制約違反の両方の上限の$\widetilde{\mathcal{o}}(l|\mathcal{s}|\sqrt{|\mathcal{a}|t}) を達成することを証明し、ここで$l$は各エピソードの長さである。
本分析では,ラグランジュ乗算過程の新たな高確率ドリフト解析を,オンライン学習における「不確実性に直面した最適化」の力を実証した,高信頼強化学習の記念後悔分析に取り入れた。
関連論文リスト
- Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Settling Constant Regrets in Linear Markov Decision Processes [57.34287648914407]
強化学習(RL)における絶え間ない後悔の保証について検討する。
我々は不特定線形マルコフ決定過程(MDP)に対するアルゴリズムCert-LSVI-UCBを導入する。
Cert-LSVI-UCB は $tildemathcalO(d3H5/Delta)$ の累積後悔と高い確率を持つ MDP に対して、$zeta$ が $tildemathcalO(Delta / (sqrtd) 以下であることを仮定する。
論文 参考訳(メタデータ) (2024-04-16T17:23:19Z) - Learning Adversarial Low-rank Markov Decision Processes with Unknown
Transition and Full-information Feedback [30.23951525723659]
本研究は,全情報フィードバック設定において,逆向きに損失が変化する低ランクMDPについて検討する。
政策最適化に基づくアルゴリズムPOLOを提案し、$widetildeO(Kfrac56Afrac12dln (1+M)/ (1-gamma)2)$ regret guarantee。
論文 参考訳(メタデータ) (2023-11-14T03:12:43Z) - Online Reinforcement Learning in Markov Decision Process Using Linear
Programming [1.0878040851638]
マルコフ決定過程(MDP)におけるオンライン強化学習について検討した。
我々は,高い確率で$widetildeO(LXsqrtTA)$ regretを実現する,シンプルで効率的なモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2023-03-31T22:21:41Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Efficient Learning in Non-Stationary Linear Markov Decision Processes [17.296084954104415]
非定常線形(低ランク)マルコフ決定過程(MDP)におけるエピソード強化学習の研究
OPT-WLSVI は最小二乗の重み付け値に基づく楽観的なモデルフリーのアルゴリズムであり、指数重み付けを用いて過去のデータをスムーズに忘れる。
我々のアルゴリズムは、各時点で最高のポリシーと競合するときに、$d$$$widetildemathcalO(d5/4H2 Delta1/4 K3/4)$で上限付けられた後悔を実現する。
論文 参考訳(メタデータ) (2020-10-24T11:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。