論文の概要: Learning Adversarial MDPs with Stochastic Hard Constraints
- arxiv url: http://arxiv.org/abs/2403.03672v2
- Date: Wed, 20 Mar 2024 08:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 21:28:43.122747
- Title: Learning Adversarial MDPs with Stochastic Hard Constraints
- Title(参考訳): 確率的硬度制約を用いた対立型MDPの学習
- Authors: Francesco Emanuele Stradi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti,
- Abstract要約: 本研究では,制約付き意思決定プロセスにおけるオンライン学習問題について,対向的損失と厳しい制約を伴う検討を行った。
我々は,各エピソードの制約を高い確率で満たしながら,サブ線形後悔を実現するアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 37.24692425018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online learning problems in constrained Markov decision processes (CMDPs) with adversarial losses and stochastic hard constraints. We consider two different scenarios. In the first one, we address general CMDPs, where we design an algorithm that attains sublinear regret and cumulative positive constraints violation. In the second scenario, under the mild assumption that a policy strictly satisfying the constraints exists and is known to the learner, we design an algorithm that achieves sublinear regret while ensuring that the constraints are satisfied at every episode with high probability. To the best of our knowledge, our work is the first to study CMDPs involving both adversarial losses and hard constraints. Indeed, previous works either focus on much weaker soft constraints--allowing for positive violation to cancel out negative ones--or are restricted to stochastic losses. Thus, our algorithms can deal with general non-stationary environments subject to requirements much stricter than those manageable with state-of-the-art algorithms. This enables their adoption in a much wider range of real-world applications, ranging from autonomous driving to online advertising and recommender systems.
- Abstract(参考訳): 我々は,制約付きマルコフ決定過程(CMDP)におけるオンライン学習問題について,対向的損失と確率的制約を伴う検討を行った。
私たちは2つの異なるシナリオを考えます。
第一に、一般CMDPに対処し、サブリニアな後悔と累積的な正の制約違反を実現するアルゴリズムを設計する。
第2のシナリオでは、制約を厳密に満たし、学習者に知られているポリシーが存在するという軽微な仮定の下で、制約が各エピソードにおいて高い確率で満たされることを保証しながら、サブ線形後悔を実現するアルゴリズムを設計する。
我々の知識を最大限に活用するために、我々の研究は、敵の損失と厳しい制約の両方を含むCMDPを初めて研究する。
実際、以前の研究は、より弱いソフトな制約(ネガティブな制約をキャンセルするポジティブな違反を許容する)に焦点を当てていたり、確率的な損失に制限されたりしていた。
したがって、我々のアルゴリズムは、最先端のアルゴリズムで管理できるものよりもはるかに厳しい要求を受ける一般的な非定常環境に対処することができる。
これにより、自動運転からオンライン広告、レコメンデーターシステムまで、より幅広い現実世界のアプリケーションに採用できるようになる。
関連論文リスト
- Learning Constrained Markov Decision Processes With Non-stationary Rewards and Constraints [34.7178680288326]
制約付きマルコフ決定プロセス(CMDP)では、逆の報酬と制約があり、よく知られた不合理性の結果、任意のアルゴリズムがサブリニア後悔とサブリニア制約違反を達成できない。
非定常的な報酬や制約のあるCMDPでは、非定常性の増加とともに性能がスムーズに低下するアルゴリズムを提供することで、この負の結果が緩和できることが示される。
論文 参考訳(メタデータ) (2024-05-23T09:48:48Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Cancellation-Free Regret Bounds for Lagrangian Approaches in Constrained
Markov Decision Processes [24.51454563844664]
有限水平CMDPのためのモデルベース2元アルゴリズムOptAug-CMDPを提案する。
提案アルゴリズムは誤りのキャンセルを必要とせずに後悔を実現する。
論文 参考訳(メタデータ) (2023-06-12T10:10:57Z) - A Best-of-Both-Worlds Algorithm for Constrained MDPs with Long-Term
Constraints [46.0806316629424]
マルコフ決定過程(CMDP)におけるオンライン学習の研究
我々は,長期制約のあるCMDPに対して,初めてのベスト・オブ・ワールドズ・アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-04-27T16:58:29Z) - Interpretable Anomaly Detection via Discrete Optimization [1.7150329136228712]
本稿では,シーケンシャルデータから本質的に解釈可能な異常検出を学習するためのフレームワークを提案する。
この問題は計算的に困難であることを示し,制約最適化に基づく2つの学習アルゴリズムを開発した。
プロトタイプ実装を用いて,提案手法は精度とF1スコアの点で有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-24T16:19:15Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Probably Approximately Correct Constrained Learning [135.48447120228658]
我々は、ほぼ正しい学習フレームワーク(PAC)に基づく一般化理論を開発する。
PAC学習可能なクラスも制約のある学習者であるという意味では,学習者の導入は学習問題を難しくするものではないことを示す。
このソリューションの特性を分析し,制約付き学習が公平でロバストな分類における問題にどのように対処できるかを説明する。
論文 参考訳(メタデータ) (2020-06-09T19:59:29Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。