Fugu-MT 論文翻訳(概要): Constant Stepsize Q-learning: Distributional Convergence, Bias and Extrapolation

論文の概要: Constant Stepsize Q-learning: Distributional Convergence, Bias and Extrapolation

arxiv url: http://arxiv.org/abs/2401.13884v1
Date: Thu, 25 Jan 2024 02:01:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 15:58:01.351157
Title: Constant Stepsize Q-learning: Distributional Convergence, Bias and Extrapolation
Title（参考訳）: 定段階Q-ラーニング:分布収束,バイアス,外挿
Authors: Yixuan Zhang and Qiaomin Xie
Abstract要約: 本稿では,非同期Q-ラーニングを定常的なステップサイズで研究する。一定段数Q-ラーニングを時間均質な連鎖に接続することにより、距離の反復の分布収束を示す。また,Q-ラーニングイテレートに対する中心極限理論を確立し,平均的イテレートの正規性を示す。具体的には、偏差は高次項までの段差に比例し、線形係数に対して明示的な表現を与える。
参考スコア（独自算出の注目度）: 27.17913040244775
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic Approximation (SA) is a widely used algorithmic approach in various fields, including optimization and reinforcement learning (RL). Among RL algorithms, Q-learning is particularly popular due to its empirical success. In this paper, we study asynchronous Q-learning with constant stepsize, which is commonly used in practice for its fast convergence. By connecting the constant stepsize Q-learning to a time-homogeneous Markov chain, we show the distributional convergence of the iterates in Wasserstein distance and establish its exponential convergence rate. We also establish a Central Limit Theory for Q-learning iterates, demonstrating the asymptotic normality of the averaged iterates. Moreover, we provide an explicit expansion of the asymptotic bias of the averaged iterate in stepsize. Specifically, the bias is proportional to the stepsize up to higher-order terms and we provide an explicit expression for the linear coefficient. This precise characterization of the bias allows the application of Richardson-Romberg (RR) extrapolation technique to construct a new estimate that is provably closer to the optimal Q function. Numerical results corroborate our theoretical finding on the improvement of the RR extrapolation method.
Abstract（参考訳）: 確率近似(Stochastic Approximation、SA)は、最適化や強化学習(RL)など、様々な分野で広く使われているアルゴリズム手法である。 RLアルゴリズムの中で、Q学習は経験的成功のために特に人気がある。本稿では,非同期Q-ラーニングを定常的なステップサイズで研究する。定数ステップ化q-ラーニングを時間均質マルコフ連鎖に結びつけることで,イテレートの分布収束をwasserstein距離で示し,その指数収束速度を確立する。また,q学習イテレートの中央極限理論を確立し,平均的なイテレートの漸近正規性を示す。さらに、ステップ化における平均的な反復の漸近バイアスを明示的に拡張する。具体的には、バイアスは高次項までの段差に比例し、線形係数に対して明示的な表現を与える。このバイアスの正確な特徴づけは、最適Q関数に確実に近い新しい推定値を構築するためにリチャードソン・ロームバーグ外挿法(RR)の適用を可能にする。数値計算はRR外挿法の改良に関する理論的知見を裏付けるものである。

関連論文リスト

A General-Purpose Theorem for High-Probability Bounds of Stochastic Approximation with Polyak Averaging [2.378735224874938]
Polyak-Rt平均化は近似アルゴリズムの最適分散を実現するために広く用いられている手法である。平均的なSA反復の誤差に対する非漸近濃度境界を確立するための一般的な枠組みを提案する。
論文参考訳（メタデータ） (2025-05-27T21:58:35Z)
A weak convergence approach to large deviations for stochastic approximations [0.9374652839580183]
我々は、状態依存マルコフ雑音とステップサイズを減少させる一般近似に対する大きな偏差原理を証明した。学習アルゴリズムの例としては、勾配降下、コントラスト分岐、ワン・ランダウアルゴリズムがある。
論文参考訳（メタデータ） (2025-02-04T17:50:30Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
Last Iterate Convergence of Incremental Methods and Applications in Continual Learning [10.811735264028348]
連続学習における応用により、漸進的勾配法と漸進的近位法の両方の最後の繰り返しに対する収束保証を得る。一般化を伴う連続学習のモデルとしての漸進的近位法について検討し,大惨な忘れ込みを防ぐために大量の正規化が不可欠であると主張している。
論文参考訳（メタデータ） (2024-03-11T16:24:26Z)
Stochastic Methods in Variational Inequalities: Ergodicity, Bias and Refinements [19.524063429548278]
Extragradient (SEG) と Gradient Descent Ascent (SGDA) は min-max 最適化と変分不等式問題に対する優越アルゴリズムである。これらのアルゴリズムに固有の本質的な構造を定量化し定量化するための我々の取り組み。定数のステップサイズSEG/SGDAを時間同質マルコフ連鎖として再キャストすることにより、大数の第一種法則と中心極限定理を確立する。
論文参考訳（メタデータ） (2023-06-28T18:50:07Z)
Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文参考訳（メタデータ） (2023-05-24T20:43:47Z)
q-Learning in Continuous Time [1.4213973379473654]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文参考訳（メタデータ） (2022-07-02T02:20:41Z)
Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文参考訳（メタデータ） (2022-02-23T06:11:49Z)
Regularized Q-learning [6.663174194579773]
本稿では,線形関数近似を用いて収束する新しいQ-ラーニングアルゴリズムを提案する。線形関数近似を用いたQ-ラーニングが分散した環境に収束することが実験的に示された。
論文参考訳（メタデータ） (2022-02-11T01:29:50Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
Nonlinear Two-Time-Scale Stochastic Approximation: Convergence and Finite-Time Performance [1.52292571922932]
非線形2時間スケール近似の収束と有限時間解析について検討する。特に,本手法は期待値の収束を$mathcalO (1/k2/3)$で達成し,$k$は反復数であることを示す。
論文参考訳（メタデータ） (2020-11-03T17:43:39Z)
Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文参考訳（メタデータ） (2020-09-29T18:48:21Z)
On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文参考訳（メタデータ） (2020-04-09T17:54:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。