Fugu-MT 論文翻訳(概要): Linear $Q$-Learning Does Not Diverge: Convergence Rates to a Bounded Set

論文の概要: Linear $Q$-Learning Does Not Diverge: Convergence Rates to a Bounded Set

arxiv url: http://arxiv.org/abs/2501.19254v1
Date: Fri, 31 Jan 2025 16:10:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 22:46:13.100566
Title: Linear $Q$-Learning Does Not Diverge: Convergence Rates to a Bounded Set
Title（参考訳）: 線形$Q$-earningは分岐しない:収束率と境界集合
Authors: Xinyu Liu, Zixuan Xie, Shangtong Zhang,
Abstract要約: 本稿では、線形$Q$学習の最初の$L2$収束率を有界集合に設定する。必要なのは、適応温度の$epsilon$-softmaxの行動ポリシーだけです。
参考スコア（独自算出の注目度）: 34.129520133741124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: $Q$-learning is one of the most fundamental reinforcement learning algorithms. Previously, it is widely believed that $Q$-learning with linear function approximation (i.e., linear $Q$-learning) suffers from possible divergence. This paper instead establishes the first $L^2$ convergence rate of linear $Q$-learning to a bounded set. Notably, we do not make any modification to the original linear $Q$-learning algorithm, do not make any Bellman completeness assumption, and do not make any near-optimality assumption on the behavior policy. All we need is an $\epsilon$-softmax behavior policy with an adaptive temperature. The key to our analysis is the general result of stochastic approximations under Markovian noise with fast-changing transition functions. As a side product, we also use this general result to establish the $L^2$ convergence rate of tabular $Q$-learning with an $\epsilon$-softmax behavior policy, for which we rely on a novel pseudo-contraction property of the weighted Bellman optimality operator.
Abstract（参考訳）: Q$-learningは、最も基本的な強化学習アルゴリズムの1つである。これまでは、線形関数近似による$Q$-learning(つまり、線形$Q$-learning)は分岐の可能性があると広く信じられていた。代わりに、線形$Q$学習の最初の$L^2$収束速度を有界集合に設定する。特に、元の線形$Q$-learningアルゴリズムの変更は行わず、ベルマン完全性仮定も行わず、行動ポリシーの準最適仮定も行わない。必要なのは、適応温度の$\epsilon$-softmaxの行動ポリシーだけです。解析の鍵となるのは、マルコフ雑音下での確率近似と高速に変化する遷移関数の一般結果である。副産物として、この一般結果を用いて、重み付きベルマン最適作用素の新たな擬似抽出特性に依存する、$\epsilon$-softmaxの振る舞いポリシーを用いて、表付き$Q$学習の$L^2$収束率を確立する。

関連論文リスト

Finite Sample Analysis of Linear Temporal Difference Learning with Arbitrary Features [33.19711311247482]
本稿では、任意の機能の下で線形TD($lambda$)演算に対する最初の$L2$収束率を確立する。任意の特徴から生じる解の潜在的非特異性に対処するために、単一点ではなく解集合への収束率を特徴とする新しい近似結果を開発する。
論文参考訳（メタデータ） (2025-05-27T16:17:49Z)
Learning and Computation of $Φ$-Equilibria at the Frontier of Tractability [85.07238533644636]
$Phi$-equilibriaは、オンライン学習とゲーム理論の中心にある、強力で柔軟なフレームワークだ。効率的なオンラインアルゴリズムは、$textpoly(d, k)/epsilon2$ラウンドを使用して、平均$Phi$-regretを最大$epsilon$で生成することを示す。また、オンライン設定において、ほぼ一致した下限を示し、その結果、$Phi$-regretの学習可能性を取得する偏差の族が初めて得られる。
論文参考訳（メタデータ） (2025-02-25T19:08:26Z)
Online Inverse Linear Optimization: Improved Regret Bound, Robustness to Suboptimality, and Toward Tight Regret Analysis [25.50155563108198]
本稿では,学習者が時間変化の可能な行動群とエージェントの最適な行動群の両方を観察するオンライン学習問題について検討する。我々は、以前の$O(n4ln T)$の限界を$n3$の係数で改善した$O(nln T)$後悔境界を得る。
論文参考訳（メタデータ） (2025-01-24T09:19:15Z)
Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文参考訳（メタデータ） (2024-02-14T07:52:00Z)
Policy Gradient Optimal Correlation Search for Variance Reduction in Monte Carlo simulation and Maximum Optimal Transport [0.0]
我々は、ある微分方程式の解として$f(X_T)$を推定し、$f$がテスト関数であるときに、分散還元のための新しいアルゴリズムを提案する。新しい推定器は$(f(XT) + f(X2_T))/2$であり、ここでは$X1$と$X2$は$X2$と同じ限界法則を持つが、分散を減らすために経路的に相関している。
論文参考訳（メタデータ） (2023-07-24T11:37:02Z)
Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文参考訳（メタデータ） (2023-05-13T01:10:49Z)
Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-30T14:37:21Z)
Nearly Minimax Optimal Reinforcement Learning with Linear Function Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文参考訳（メタデータ） (2022-06-23T06:04:21Z)
Target Network and Truncation Overcome The Deadly triad in $Q$-Learning [7.532013242448151]
本稿では,ターゲットネットワークとトランケーションを用いた線形関数近似を用いた$Q$-learningの安定設計を提案する。この結果から,関数近似誤差まで,$mathcalO(epsilon-2)$サンプルの複雑さが示唆された。これは線形関数近似による$Q$-learningの最初の変種であり、強い仮定や問題パラメータの変更を必要とせず、確実に安定である。
論文参考訳（メタデータ） (2022-03-05T00:54:58Z)
Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。 Open GymAI連続制御タスクの結果。
論文参考訳（メタデータ） (2022-02-28T15:16:23Z)
A first-order primal-dual method with adaptivity to local smoothness [64.62056765216386]
凸凹対象 $min_x max_y f(x) + langle Ax, yrangle - g*(y)$, ここで、$f$ は局所リプシッツ勾配を持つ凸関数であり、$g$ は凸かつ非滑らかである。主勾配ステップと2段ステップを交互に交互に行うCondat-Vuアルゴリズムの適応バージョンを提案する。
論文参考訳（メタデータ） (2021-10-28T14:19:30Z)
Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文参考訳（メタデータ） (2021-02-17T18:54:08Z)
Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文参考訳（メタデータ） (2020-12-15T18:56:46Z)
Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation [44.374427255708135]
線形関数近似を用いた無限水平平均逆設定でマルコフ決定過程を学習するための新しいアルゴリズムを開発した。まず,最適$widetildeO(sqrtT)$ regretの計算非効率アルゴリズムを提案する。次に,逆線形包帯から着想を得て,$widetildeO(sqrtT)$ regretのアルゴリズムを新たに開発した。
論文参考訳（メタデータ） (2020-07-23T08:23:44Z)
Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。 i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文参考訳（メタデータ） (2020-07-16T06:44:44Z)
Learning nonlinear dynamical systems from a single trajectory [102.60042167341956]
我々は、$x_t+1=sigma(Thetastarx_t)+varepsilon_t$という形の非線形力学系を学ぶアルゴリズムを導入する。最適なサンプル複雑性と線形ランニング時間を持つ単一軌道から重み行列$Thetastar$を復元するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-04-30T10:42:48Z)
Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文参考訳（メタデータ） (2020-02-29T02:02:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。