Fugu-MT 論文翻訳(概要): Learning General Parameterized Policies for Infinite Horizon Average Reward Constrained MDPs via Primal-Dual Policy Gradient Algorithm

論文の概要: Learning General Parameterized Policies for Infinite Horizon Average Reward Constrained MDPs via Primal-Dual Policy Gradient Algorithm

arxiv url: http://arxiv.org/abs/2402.02042v2
Date: Sun, 3 Mar 2024 08:25:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 00:26:26.998796
Title: Learning General Parameterized Policies for Infinite Horizon Average Reward Constrained MDPs via Primal-Dual Policy Gradient Algorithm
Title（参考訳）: 基本二元法勾配アルゴリズムによる無限水平平均逆数制約MDPの一般パラメータ化法学習
Authors: Qinbo Bai, Washim Uddin Mondal, Vaneet Aggarwal
Abstract要約: 本稿では, 制約を適切に管理し, グローバルな最適政策の実現に向けて, 後悔の少ない保証を確実にする主元的二元的ポリシー勾配アルゴリズムを提案する。具体的には,提案アルゴリズムが目的的後悔と制約違反境界を$tildemathcalO(T4/5)$で達成できることを実証する。
参考スコア（独自算出の注目度）: 38.879933964474326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores the realm of infinite horizon average reward Constrained Markov Decision Processes (CMDP). To the best of our knowledge, this work is the first to delve into the regret and constraint violation analysis of average reward CMDPs with a general policy parametrization. To address this challenge, we propose a primal dual based policy gradient algorithm that adeptly manages the constraints while ensuring a low regret guarantee toward achieving a global optimal policy. In particular, we demonstrate that our proposed algorithm achieves $\tilde{\mathcal{O}}({T}^{4/5})$ objective regret and $\tilde{\mathcal{O}}({T}^{4/5})$ constraint violation bounds.
Abstract（参考訳）: 本稿では、無限水平平均報酬制約マルコフ決定過程(CMDP)の領域を考察する。我々の知る限り、この研究は、一般的な政策パラメトリゼーションによる平均報酬CMDPの後悔と制約違反の分析を初めて調べるものである。この課題に対処するために,グローバルな最適政策を達成するための低い後悔の保証を確保しつつ,制約を適切に管理するプライマリデュアルベースポリシー勾配アルゴリズムを提案する。特に、提案アルゴリズムは、目的的後悔と制約違反境界を$\tilde{\mathcal{O}}({T}^{4/5})$\tilde{\mathcal{O}}({T}^{4/5})$とすることを示した。

関連論文リスト

Provably Efficient Algorithms for S- and Non-Rectangular Robust MDPs with General Parameterization [85.91302339486673]
我々は、s-正方形および非正方形不確実性集合の下で、一般的な政策パラメータ化を伴うロバストマルコフ決定過程(RMDP)について検討する。無限状態空間に拡張する一般政策パラメタライゼーションに対する新しいリプシッツ・リプシッツ・スムースネス特性を証明した。本研究では,S-正方形不確かさに対する勾配降下アルゴリズムと非正方形不確かさに対するFrank-Wolfeアルゴリズムを設計する。
論文参考訳（メタデータ） (2026-02-11T21:44:20Z)
Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文参考訳（メタデータ） (2025-06-08T13:37:38Z)
Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form [26.01796404477275]
本稿では,頑健な制約付きMDP(RCMDP)における準最適ポリシーを同定できる最初のアルゴリズムを提案する。最適ポリシーは、一連の環境における最悪のシナリオにおける制約を満たしながら累積コストを最小化する。
論文参考訳（メタデータ） (2024-08-29T06:37:16Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Order-Optimal Regret with Novel Policy Gradient Approaches in Infinite-Horizon Average Reward MDPs [31.343919501963416]
無限水平平均報酬マルコフ決定過程(MDP)の文脈における一般パラメトリゼーションを用いた2つのポリシー勾配に基づくアルゴリズムを提案する。 1つはインプリシット・グラディエント・トランスポート(Implicit Gradient Transport)で分散還元を行い、$tildemathcalO(T2/3)$に対する期待された後悔を確実にする。第2のアプローチは、ヘッセンの手法をルーツとするもので、$tildemathcalO(sqrtT)$を期待された後悔を保証する。
論文参考訳（メタデータ） (2024-04-02T17:08:23Z)
On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文参考訳（メタデータ） (2024-03-11T15:25:03Z)
Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文参考訳（メタデータ） (2024-02-24T09:47:46Z)
A safe exploration approach to constrained Markov decision processes [7.036452261968767]
無限水平制限マルコフ決定過程(CMDP)について考察する。目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、モデルフリーでシミュレータフリーなアルゴリズムの開発に焦点をあてる。
論文参考訳（メタデータ） (2023-12-01T13:16:39Z)
Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文参考訳（メタデータ） (2023-09-27T04:33:09Z)
Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes [38.879933964474326]
我々は、無限水平平均報酬マルコフ決定過程(MDP)を考える。政策勾配に基づくアルゴリズムを提案し,その大域収束特性を示す。提案アルゴリズムが $tildemathcalO(T3/4)$ regret であることを示す。
論文参考訳（メタデータ） (2023-09-05T03:22:46Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm [42.83837408373223]
連続状態-作用空間におけるマルコフ決定過程(CMDP)の問題点を考察する。本稿では,ゼロ制約違反を実現するために,新しい保守的自然ポリシーグラディエント・プライマル・ダイアルアルゴリズム(C-NPG-PD)を提案する。
論文参考訳（メタデータ） (2022-06-12T22:31:43Z)
Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文参考訳（メタデータ） (2021-02-22T18:56:26Z)
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-01T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。