論文の概要: Settling Constant Regrets in Linear Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2404.10745v1
- Date: Tue, 16 Apr 2024 17:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 15:55:23.540239
- Title: Settling Constant Regrets in Linear Markov Decision Processes
- Title(参考訳): 線形マルコフ決定過程における定数規則の設定
- Authors: Weitong Zhang, Zhiyuan Fan, Jiafan He, Quanquan Gu,
- Abstract要約: 強化学習(RL)における絶え間ない後悔の保証について検討する。
我々は不特定線形マルコフ決定過程(MDP)に対するアルゴリズムCert-LSVI-UCBを導入する。
Cert-LSVI-UCB は $tildemathcalO(d3H5/Delta)$ の累積後悔と高い確率を持つ MDP に対して、$zeta$ が $tildemathcalO(Delta / (sqrtd) 以下であることを仮定する。
- 参考スコア(独自算出の注目度): 57.34287648914407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the constant regret guarantees in reinforcement learning (RL). Our objective is to design an algorithm that incurs only finite regret over infinite episodes with high probability. We introduce an algorithm, Cert-LSVI-UCB, for misspecified linear Markov decision processes (MDPs) where both the transition kernel and the reward function can be approximated by some linear function up to misspecification level $\zeta$. At the core of Cert-LSVI-UCB is an innovative certified estimator, which facilitates a fine-grained concentration analysis for multi-phase value-targeted regression, enabling us to establish an instance-dependent regret bound that is constant w.r.t. the number of episodes. Specifically, we demonstrate that for an MDP characterized by a minimal suboptimality gap $\Delta$, Cert-LSVI-UCB has a cumulative regret of $\tilde{\mathcal{O}}(d^3H^5/\Delta)$ with high probability, provided that the misspecification level $\zeta$ is below $\tilde{\mathcal{O}}(\Delta / (\sqrt{d}H^2))$. Remarkably, this regret bound remains constant relative to the number of episodes $K$. To the best of our knowledge, Cert-LSVI-UCB is the first algorithm to achieve a constant, instance-dependent, high-probability regret bound in RL with linear function approximation for infinite runs without relying on prior distribution assumptions. This not only highlights the robustness of Cert-LSVI-UCB to model misspecification but also introduces novel algorithmic designs and analytical techniques of independent interest.
- Abstract(参考訳): 強化学習(RL)における絶え間ない後悔の保証について検討した。
我々の目的は、確率の高い無限エピソードに対して有限後悔しか生じないアルゴリズムを設計することである。
そこで我々は,遷移カーネルと報酬関数の両方を,不特定値$\zeta$までの線形関数で近似できる,不特定線形マルコフ決定過程(MDP)のアルゴリズムCert-LSVI-UCBを導入する。
Cert-LSVI-UCBの中核は、多相値目標回帰の微粒化濃度解析を容易にする革新的な認定評価器であり、エピソード数に一定となるインスタンス依存の後悔境界を確立することができる。
具体的には、最小限の最適性ギャップ$\Delta$ を特徴とする MDP に対して、Cert-LSVI-UCB は $\tilde{\mathcal{O}}(d^3H^5/\Delta)$ を高い確率で累積後悔し、不特定度 $\zeta$ が $\tilde{\mathcal{O}}(\Delta / (\sqrt{d}H^2))$ 以下であることを示す。
興味深いことに、この後悔の限界は、$K$のエピソードの数に対して一定である。
我々の知る限り、Cert-LSVI-UCB は、RL における定数、インスタンス依存、高確率の後悔を、事前の分布仮定に頼らずに無限実行に対する線形関数近似で達成する最初のアルゴリズムである。
これは、不特定性をモデル化するCert-LSVI-UCBの堅牢性を強調しているだけでなく、新しいアルゴリズム設計や、独立した興味を持つ分析技術も導入している。
関連論文リスト
- Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Bridging Distributional and Risk-sensitive Reinforcement Learning with
Provable Regret Bounds [24.571530193140916]
エントロピーリスク尺度(EntRM)が目的である有限エピソードマルコフ決定過程を考察する。
モデルフリーとモデルベースを含む2つの異なるスキームを用いて最適化を実装する2つの新しいDRLアルゴリズムを提案する。
いずれも$tildemathcalO(fracexp(|beta|H)-1|beta|HsqrtS2AK)$ regret upper bound, where $S$, $A$, $K$, $H$は数値を表す。
論文 参考訳(メタデータ) (2022-10-25T14:30:48Z) - Bilinear Exponential Family of MDPs: Frequentist Regret Bound with
Tractable Exploration and Planning [0.0]
本研究では,不確実な報酬と遷移を伴う連続状態行動空間におけるエピソード強化学習の課題について検討する。
我々は,未知のパラメータを学習するために,ペナライズされた最大確率推定器を用いたアルゴリズムBEF-RLSVIを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:26:49Z) - Provably Efficient Model-Free Constrained RL with Linear Function
Approximation [4.060731229044571]
我々は,大規模システムにおいても,サブリニア後悔とサブリニア制約違反を実現するための,最初のモデルフリーシミュレータフリーアルゴリズムを開発した。
本結果は,標準LSVI-UCBアルゴリズムの新たな適応により達成される。
論文 参考訳(メタデータ) (2022-06-23T17:54:31Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Nonstationary Reinforcement Learning with Linear Function Approximation [19.521419943509784]
ドリフト環境下での線形関数近似によるマルコフ決定過程(MDP)における強化学習について考察する。
まず、周期的再起動を伴う最小二乗値の楽観的な修正を開発し、変動予算が分かっている場合にその動的後悔を束縛する。
非定常線型 MDP に対する最初の minimax dynamic regret lower bound を導出し、副生成物として Jin らによって未解決の線型 MDP に対する minimax regret lower bound を定めている。
論文 参考訳(メタデータ) (2020-10-08T20:07:44Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。