論文の概要: Rate-Optimal Policy Optimization for Linear Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2308.14642v3
- Date: Thu, 16 May 2024 11:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 19:34:02.887843
- Title: Rate-Optimal Policy Optimization for Linear Markov Decision Processes
- Title(参考訳): 線形マルコフ決定過程の速度最適化
- Authors: Uri Sherman, Alon Cohen, Tomer Koren, Yishay Mansour,
- Abstract要約: 最安値の$widetilde O (sqrt K)$ regret, $K$はエピソード数を表す。
我々の研究は、バンディットフィードバックのある設定において最適な収束率(w.r.t.$K$)を確立する最初のものである。
現在、最適なレート保証を持つアルゴリズムは知られていない。
- 参考スコア(独自算出の注目度): 65.5958446762678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study regret minimization in online episodic linear Markov Decision Processes, and obtain rate-optimal $\widetilde O (\sqrt K)$ regret where $K$ denotes the number of episodes. Our work is the first to establish the optimal (w.r.t.~$K$) rate of convergence in the stochastic setting with bandit feedback using a policy optimization based approach, and the first to establish the optimal (w.r.t.~$K$) rate in the adversarial setup with full information feedback, for which no algorithm with an optimal rate guarantee is currently known.
- Abstract(参考訳): オンラインエピソード線形マルコフ決定過程における後悔の最小化について検討し, エピソード数を表す$K$に対して, レート最適の$\widetilde O (\sqrt K)$ regretを求める。
我々の研究は、政策最適化に基づくアプローチを用いて、確率的設定における最適(w.r.t.~$K$)収束率と、最適(w.r.t.~$K$)速度を、完全な情報フィードバックを備えた対向的な設定で確立した最初のものである。
関連論文リスト
- Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes [12.76843681997386]
ポリシー最適化(PO)手法は、実際に最も人気のある強化学習(RL)アルゴリズムの一つである。
本稿では,線形マルコフ決定過程 (MDP) モデルに基づくPOアルゴリズムを提案する。
我々のアルゴリズムは、問題の他のパラメータへの依存性を改善して後悔する。
論文 参考訳(メタデータ) (2024-07-03T12:36:24Z) - Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs
with Short Burn-In Time [13.545356254920584]
本稿では,分散削減を利用したモデルフリーアルゴリズムと,実行方針を低速かつ適応的に切り替える新しい手法を提案する。
これは割引設定における最初の後悔の最適モデルフリーアルゴリズムであり、バーンイン時間の短縮によるメリットがある。
論文 参考訳(メタデータ) (2023-05-24T20:22:43Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Lexicographic Optimisation of Conditional Value at Risk and Expected
Value for Risk-Averse Planning in MDPs [4.87191262649216]
マルコフ決定プロセス(MDP)の計画は通常、期待されるコストを最適化する。
もう1つのアプローチは、リスクの条件値(CVaR)のようなリスク-逆の目的を最適化するポリシーを見つけることである。
我々は,総コストのCVaRが最適であるという制約の下で,期待されるコストを最小限に抑えるための語彙最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-10-25T09:16:50Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary
MDPs [45.6318149525364]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
本稿では,$underlinetextp$eriodically $underlinetextr$estarted $underlinetexto$ptimistic $underlinetextp$olicy $underlinetexto$ptimization algorithm (PROPO)を提案する。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。