論文の概要: A Best-of-Both-Worlds Algorithm for Constrained MDPs with Long-Term
Constraints
- arxiv url: http://arxiv.org/abs/2304.14326v1
- Date: Thu, 27 Apr 2023 16:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 12:31:25.642213
- Title: A Best-of-Both-Worlds Algorithm for Constrained MDPs with Long-Term
Constraints
- Title(参考訳): 長期制約付き拘束型MDPのためのBest-of-Both-Worldsアルゴリズム
- Authors: Jacopo Germano, Francesco Emanuele Stradi, Gianmarco Genalti, Matteo
Castiglioni, Alberto Marchesi, Nicola Gatti
- Abstract要約: マルコフ決定過程(CMDP)におけるオンライン学習の研究
我々は,長期制約のあるCMDPに対して,初めてのベスト・オブ・ワールドズ・アルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 46.0806316629424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online learning in episodic constrained Markov decision processes
(CMDPs), where the goal of the learner is to collect as much reward as possible
over the episodes, while guaranteeing that some long-term constraints are
satisfied during the learning process. Rewards and constraints can be selected
either stochastically or adversarially, and the transition function is not
known to the learner. While online learning in classical unconstrained MDPs has
received considerable attention over the last years, the setting of CMDPs is
still largely unexplored. This is surprising, since in real-world applications,
such as, e.g., autonomous driving, automated bidding, and recommender systems,
there are usually additional constraints and specifications that an agent has
to obey during the learning process. In this paper, we provide the first
best-of-both-worlds algorithm for CMDPs with long-term constraints. Our
algorithm is capable of handling settings in which rewards and constraints are
selected either stochastically or adversarially, without requiring any
knowledge of the underling process. Moreover, our algorithm matches
state-of-the-art regret and constraint violation bounds for settings in which
constraints are selected stochastically, while it is the first to provide
guarantees in the case in which they are chosen adversarially.
- Abstract(参考訳): そこでは,学習者のゴールは,学習過程中にある程度の長期的制約が満たされることを保証しつつ,エピソードを通じてできるだけ多くの報酬を集めることである。
リワードと制約は確率的にも逆的にも選択でき、遷移関数は学習者には知られない。
古典的非拘束型mdpにおけるオンライン学習は近年大きな注目を集めているが、cmdpの設定はいまだにほとんど解明されていない。
これは、例えば自動運転、自動入札、レコメンデーションシステムといった現実世界のアプリケーションでは、学習プロセス中にエージェントが従わなければならない追加の制約や仕様が存在するため、驚くべきことである。
本稿では,CMDPの長期的制約を考慮したベスト・オブ・ボス・ワールドス・アルゴリズムを提案する。
このアルゴリズムは,報酬や制約を確率的あるいは逆向きに選択する設定を,アンダーリング過程の知識を必要とせずに処理することができる。
さらに,本アルゴリズムは,制約が確率的に選択された設定に対して,現状の後悔と制約違反境界とをマッチングする。
関連論文リスト
- Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Learning Adversarial MDPs with Stochastic Hard Constraints [37.24692425018]
本研究では,制約付き意思決定プロセスにおけるオンライン学習問題について,対向的損失と厳しい制約を伴う検討を行った。
我々は,各エピソードの制約を高い確率で満たしながら,サブ線形後悔を実現するアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-06T12:49:08Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Interpretable Anomaly Detection via Discrete Optimization [1.7150329136228712]
本稿では,シーケンシャルデータから本質的に解釈可能な異常検出を学習するためのフレームワークを提案する。
この問題は計算的に困難であることを示し,制約最適化に基づく2つの学習アルゴリズムを開発した。
プロトタイプ実装を用いて,提案手法は精度とF1スコアの点で有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-24T16:19:15Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Deep reinforcement learning under signal temporal logic constraints
using Lagrangian relaxation [0.0]
一般的には,決定に制約を課すことができる。
時間的高次タスクを完了させるために制約のある最適決定問題を考える。
ラグランジアン緩和法を用いた二相制約DRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-21T00:56:25Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。