論文の概要: Near-Optimal Regret for Policy Optimization in Contextual MDPs with General Offline Function Approximation
- arxiv url: http://arxiv.org/abs/2602.13706v1
- Date: Sat, 14 Feb 2026 10:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.354513
- Title: Near-Optimal Regret for Policy Optimization in Contextual MDPs with General Offline Function Approximation
- Title(参考訳): 一般オフライン関数近似を用いた文脈的MDPにおけるポリシー最適化のための準最適レグレット
- Authors: Orin Levy, Aviv Rosenberg, Alon Cohen, Yishay Mansour,
- Abstract要約: 文脈マルコフ決定プロセス(CMDP)のための最初のポリシー最適化アルゴリズムであるtextttOPO-CMDP を導入する。
提案手法は,$widetildeO(H4sqrtT|S||A|log(|mathcalF||mathcalP|)),$$S$と$A$は状態と行動空間,$H$は地平線,$T$はエピソード数,$mathcalFを表す。
- 参考スコア(独自算出の注目度): 44.21807785944295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \texttt{OPO-CMDP}, the first policy optimization algorithm for stochastic Contextual Markov Decision Process (CMDPs) under general offline function approximation. Our approach achieves a high probability regret bound of $\widetilde{O}(H^4\sqrt{T|S||A|\log(|\mathcal{F}||\mathcal{P}|)}),$ where $S$ and $A$ denote the state and action spaces, $H$ the horizon length, $T$ the number of episodes, and $\mathcal{F}, \mathcal{P}$ the finite function classes used to approximate the losses and dynamics, respectively. This is the first regret bound with optimal dependence on $|S|$ and $|A|$, directly improving the current state-of-the-art (Qian, Hu, and Simchi-Levi, 2024). These results demonstrate that optimistic policy optimization provides a natural, computationally superior and theoretically near-optimal path for solving CMDPs.
- Abstract(参考訳): 一般のオフライン関数近似の下で確率的マルコフ決定過程(CMDP)に対する最初のポリシー最適化アルゴリズムである「texttt{OPO-CMDP}」を紹介する。
我々のアプローチは、$\widetilde{O}(H^4\sqrt{T|S||A|\log(|\mathcal{F}||\mathcal{P}|)})$に対して、$S$と$A$は状態と作用空間を表す。
これは、現在の最先端(Qian, Hu, and Simchi-Levi, 2024)を直接改善する、$|S|$と$|A|$への最適依存に縛られた最初の後悔である。
これらの結果は、楽観的なポリシー最適化がCMDPを解くための自然な、計算上、理論的にほぼ最適経路を提供することを示している。
関連論文リスト
- Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization [11.11876897168701]
対人的マルコフ決定過程における学習の問題を考える。
本稿では,APO-MVPと呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-08T08:06:45Z) - Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Eluder-based Regret for Stochastic Contextual MDPs [43.19667415823089]
文脈マルコフ決定過程(CMDP)における後悔最小化のためのE-UC$3$RLアルゴリズムを提案する。
我々のアルゴリズムは効率的であり(効率的なオフライン回帰オラクルを仮定すると)、$ widetildeO(H3 sqrtT |S| |A|d_mathrmE(mathcalP)$の後悔の保証を享受する。
論文 参考訳(メタデータ) (2022-11-27T20:38:47Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。