論文の概要: Linear $Q$-Learning Does Not Diverge: Convergence Rates to a Bounded Set
- arxiv url: http://arxiv.org/abs/2501.19254v1
- Date: Fri, 31 Jan 2025 16:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:59.687510
- Title: Linear $Q$-Learning Does Not Diverge: Convergence Rates to a Bounded Set
- Title(参考訳): 線形$Q$-earningは分岐しない:収束率と境界集合
- Authors: Xinyu Liu, Zixuan Xie, Shangtong Zhang,
- Abstract要約: 本稿では、線形$Q$学習の最初の$L2$収束率を有界集合に設定する。
必要なのは、適応温度の$epsilon$-softmaxの行動ポリシーだけです。
- 参考スコア(独自算出の注目度): 34.129520133741124
- License:
- Abstract: $Q$-learning is one of the most fundamental reinforcement learning algorithms. Previously, it is widely believed that $Q$-learning with linear function approximation (i.e., linear $Q$-learning) suffers from possible divergence. This paper instead establishes the first $L^2$ convergence rate of linear $Q$-learning to a bounded set. Notably, we do not make any modification to the original linear $Q$-learning algorithm, do not make any Bellman completeness assumption, and do not make any near-optimality assumption on the behavior policy. All we need is an $\epsilon$-softmax behavior policy with an adaptive temperature. The key to our analysis is the general result of stochastic approximations under Markovian noise with fast-changing transition functions. As a side product, we also use this general result to establish the $L^2$ convergence rate of tabular $Q$-learning with an $\epsilon$-softmax behavior policy, for which we rely on a novel pseudo-contraction property of the weighted Bellman optimality operator.
- Abstract(参考訳): Q$-learningは、最も基本的な強化学習アルゴリズムの1つである。
これまでは、線形関数近似による$Q$-learning(つまり、線形$Q$-learning)は分岐の可能性があると広く信じられていた。
代わりに、線形$Q$学習の最初の$L^2$収束速度を有界集合に設定する。
特に、元の線形$Q$-learningアルゴリズムの変更は行わず、ベルマン完全性仮定も行わず、行動ポリシーの準最適仮定も行わない。
必要なのは、適応温度の$\epsilon$-softmaxの行動ポリシーだけです。
解析の鍵となるのは、マルコフ雑音下での確率近似と高速に変化する遷移関数の一般結果である。
副産物として、この一般結果を用いて、重み付きベルマン最適作用素の新たな擬似抽出特性に依存する、$\epsilon$-softmaxの振る舞いポリシーを用いて、表付き$Q$学習の$L^2$収束率を確立する。
関連論文リスト
- Policy Gradient Optimal Correlation Search for Variance Reduction in
Monte Carlo simulation and Maximum Optimal Transport [0.0]
我々は、ある微分方程式の解として$f(X_T)$を推定し、$f$がテスト関数であるときに、分散還元のための新しいアルゴリズムを提案する。
新しい推定器は$(f(XT) + f(X2_T))/2$であり、ここでは$X1$と$X2$は$X2$と同じ限界法則を持つが、分散を減らすために経路的に相関している。
論文 参考訳(メタデータ) (2023-07-24T11:37:02Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - VO$Q$L: Towards Optimal Regret in Model-free RL with Nonlinear Function
Approximation [43.193807443491814]
一般関数近似とスパース報酬による時間的不均一なエピソード強化学習(RL)について検討した。
我々は,Q$-learningをベースとした新しいアルゴリズム,Variance-weighted Optimistic $Q$-Learning (VO$Q$L) を設計し,その後悔次元を完全性に限定し,回帰関数クラスに対する有界エルダーを設計する。
論文 参考訳(メタデータ) (2022-12-12T17:37:00Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - Provably Efficient Convergence of Primal-Dual Actor-Critic with
Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。
Open GymAI連続制御タスクの結果。
論文 参考訳(メタデータ) (2022-02-28T15:16:23Z) - A first-order primal-dual method with adaptivity to local smoothness [64.62056765216386]
凸凹対象 $min_x max_y f(x) + langle Ax, yrangle - g*(y)$, ここで、$f$ は局所リプシッツ勾配を持つ凸関数であり、$g$ は凸かつ非滑らかである。
主勾配ステップと2段ステップを交互に交互に行うCondat-Vuアルゴリズムの適応バージョンを提案する。
論文 参考訳(メタデータ) (2021-10-28T14:19:30Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Learning nonlinear dynamical systems from a single trajectory [102.60042167341956]
我々は、$x_t+1=sigma(Thetastarx_t)+varepsilon_t$という形の非線形力学系を学ぶアルゴリズムを導入する。
最適なサンプル複雑性と線形ランニング時間を持つ単一軌道から重み行列$Thetastar$を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-30T10:42:48Z) - Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。
我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-02-29T02:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。