Fugu-MT 論文翻訳(概要): Learning Adversarial MDPs with Stochastic Hard Constraints

論文の概要: Learning Adversarial MDPs with Stochastic Hard Constraints

arxiv url: http://arxiv.org/abs/2403.03672v1
Date: Wed, 6 Mar 2024 12:49:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 15:03:25.648737
Title: Learning Adversarial MDPs with Stochastic Hard Constraints
Title（参考訳）: 確率的制約付き逆mdpの学習
Authors: Francesco Emanuele Stradi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti
Abstract要約: 本研究では,制約付き意思決定プロセスにおけるオンライン学習問題について,対向的損失と厳しい制約を伴う検討を行った。我々は,各エピソードの制約を高い確率で満たしながら,サブ線形後悔を実現するアルゴリズムを設計する。
参考スコア（独自算出の注目度）: 40.68958894252774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study online learning problems in constrained Markov decision processes (CMDPs) with adversarial losses and stochastic hard constraints. We consider two different scenarios. In the first one, we address general CMDPs, where we design an algorithm that attains sublinear regret and cumulative positive constraints violation. In the second scenario, under the mild assumption that a policy strictly satisfying the constraints exists and is known to the learner, we design an algorithm that achieves sublinear regret while ensuring that the constraints are satisfied at every episode with high probability. To the best of our knowledge, our work is the first to study CMDPs involving both adversarial losses and hard constraints. Indeed, previous works either focus on much weaker soft constraints--allowing for positive violation to cancel out negative ones--or are restricted to stochastic losses. Thus, our algorithms can deal with general non-stationary environments subject to requirements much stricter than those manageable with state-of-the-art algorithms. This enables their adoption in a much wider range of real-world applications, ranging from autonomous driving to online advertising and recommender systems.
Abstract（参考訳）: 対向的損失と確率的制約を伴う制約付きマルコフ決定過程(cmdps)におけるオンライン学習問題について検討した。 2つの異なるシナリオを考えます。まず,線形後悔と累積的正の制約違反を実現するアルゴリズムを設計する一般的なcmdpについて述べる。第2のシナリオでは、制約を厳密に満たし、学習者に知られているポリシーが存在するという軽微な仮定の下で、制約が各エピソードにおいて高い確率で満たされることを保証しながら、サブ線形後悔を実現するアルゴリズムを設計する。我々の知る限りでは、我々の研究は敵の損失と厳しい制約の両方を伴うcmdpを研究する最初のものである。実際、以前の研究はより弱い軟弱な制約に焦点を合わせ、負の制約を取り消す正の違反を許容するか、あるいは確率的損失に制限されている。したがって、我々のアルゴリズムは、最先端のアルゴリズムで管理できるものよりもはるかに厳しい要求を受ける一般的な非定常環境を扱うことができる。これにより、自動運転からオンライン広告、レコメンデーションシステムまで、より広い範囲の現実世界のアプリケーションで採用することができる。

関連論文リスト

Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文参考訳（メタデータ） (2025-06-08T13:37:38Z)
An Optimistic Algorithm for online CMDPS with Anytime Adversarial Constraints [7.275101606364466]
オンライン安全強化学習(RL)は、自律運転、ロボティクス、サイバーセキュリティなど、動的環境において重要な役割を果たす。マルコフ決定プロセス(CMDP)をモデルとした安全制約を満たしつつ報酬を最大化する最適政策を学習することを目的とする。既存の手法は制約の下でサブリニアな後悔を実現するが、制約が未知、時間変化、潜在的に敵意的に設計された場合、しばしば敵の設定で失敗する。最適ミラーDescent Primal-Dual (OMDPD) アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-28T00:16:34Z)
Best-of-Both-Worlds Policy Optimization for CMDPs with Bandit Feedback [34.7178680288326]
Stradi et al.(2024) は、マルコフ決定過程に制約のある最初のベスト・オブ・ボス・ワールドズ・アルゴリズムを提案した。本稿では,CMDPにおける帯域幅フィードバックを用いたベスト・オブ・ワールドズ・アルゴリズムを提案する。本アルゴリズムは政策最適化手法に基づいており, 占有率に基づく手法よりも効率的である。
論文参考訳（メタデータ） (2024-10-03T07:44:40Z)
Learning Constrained Markov Decision Processes With Non-stationary Rewards and Constraints [34.7178680288326]
制約付きマルコフ決定プロセス(CMDP)では、逆の報酬と制約があり、よく知られた不合理性の結果、任意のアルゴリズムがサブリニア後悔とサブリニア制約違反を達成できない。非定常的な報酬や制約のあるCMDPでは、非定常性の増加とともに性能がスムーズに低下するアルゴリズムを提供することで、この負の結果が緩和できることが示される。
論文参考訳（メタデータ） (2024-05-23T09:48:48Z)
Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文参考訳（メタデータ） (2024-03-18T14:55:45Z)
Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文参考訳（メタデータ） (2024-02-24T09:47:46Z)
Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文参考訳（メタデータ） (2024-02-23T23:22:06Z)
Cancellation-Free Regret Bounds for Lagrangian Approaches in Constrained Markov Decision Processes [24.51454563844664]
有限水平CMDPのためのモデルベース2元アルゴリズムOptAug-CMDPを提案する。提案アルゴリズムは誤りのキャンセルを必要とせずに後悔を実現する。
論文参考訳（メタデータ） (2023-06-12T10:10:57Z)
A Best-of-Both-Worlds Algorithm for Constrained MDPs with Long-Term Constraints [34.154704060947246]
マルコフ決定過程(CMDP)におけるオンライン学習の研究我々は,長期制約のあるCMDPに対して,初めてのベスト・オブ・ワールドズ・アルゴリズムを提供する。
論文参考訳（メタデータ） (2023-04-27T16:58:29Z)
Safe Online Bid Optimization with Return-On-Investment and Budget Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文参考訳（メタデータ） (2022-01-18T17:24:20Z)
Robust Finite-State Controllers for Uncertain POMDPs [25.377873201375515]
不確実部分可観測決定過程 (uPOMDPs) により、標準POMDPの確率的遷移観測関数は不確実集合に属する。 UPOMDPの有限メモリポリシを計算するアルゴリズムを開発した。
論文参考訳（メタデータ） (2020-09-24T02:58:50Z)
Probably Approximately Correct Constrained Learning [135.48447120228658]
我々は、ほぼ正しい学習フレームワーク(PAC)に基づく一般化理論を開発する。 PAC学習可能なクラスも制約のある学習者であるという意味では,学習者の導入は学習問題を難しくするものではないことを示す。このソリューションの特性を分析し,制約付き学習が公平でロバストな分類における問題にどのように対処できるかを説明する。
論文参考訳（メタデータ） (2020-06-09T19:59:29Z)
Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文参考訳（メタデータ） (2020-03-04T17:03:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。