論文の概要: Gaussian Approximation and Multiplier Bootstrap for Polyak-Ruppert Averaged Linear Stochastic Approximation with Applications to TD Learning
- arxiv url: http://arxiv.org/abs/2405.16644v1
- Date: Sun, 26 May 2024 17:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:58:16.000180
- Title: Gaussian Approximation and Multiplier Bootstrap for Polyak-Ruppert Averaged Linear Stochastic Approximation with Applications to TD Learning
- Title(参考訳): 平均線形確率近似に対するガウス近似と乗算器ブートストラップとTD学習への応用
- Authors: Sergey Samsonov, Eric Moulines, Qi-Man Shao, Zhuo-Song Zhang, Alexey Naumov,
- Abstract要約: マルチプライヤブートストラップに基づくパラメータ推定における信頼区間の有効性を検証した。
本稿では,線形関数近似を用いた時間差学習の設定について述べる。
- 参考スコア(独自算出の注目度): 15.041074872715752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we obtain the Berry-Esseen bound for multivariate normal approximation for the Polyak-Ruppert averaged iterates of the linear stochastic approximation (LSA) algorithm with decreasing step size. Our findings reveal that the fastest rate of normal approximation is achieved when setting the most aggressive step size $\alpha_{k} \asymp k^{-1/2}$. Moreover, we prove the non-asymptotic validity of the confidence intervals for parameter estimation with LSA based on multiplier bootstrap. This procedure updates the LSA estimate together with a set of randomly perturbed LSA estimates upon the arrival of subsequent observations. We illustrate our findings in the setting of temporal difference learning with linear function approximation.
- Abstract(参考訳): 本稿では, 線形確率近似(LSA)アルゴリズムの多変量正規近似に対するBerry-Esseen境界を求める。
以上の結果から,最も攻撃的なステップサイズを$\alpha_{k} \asymp k^{-1/2}$と設定すると,正規近似の速度が最速であることが判明した。
さらに,マルチプライヤブートストラップに基づくパラメータ推定において,信頼区間の非漸近的妥当性を証明した。
この手順は、後続の観測が到着すると、ランダムに摂動したLSA推定値と共にLSA推定値を更新する。
本稿では,線形関数近似を用いた時間差学習の設定について述べる。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Asymptotic Time-Uniform Inference for Parameters in Averaged Stochastic Approximation [23.89036529638614]
近似(SA)におけるパラメータの時間一様統計的推測について検討する。
線形および非線形のSA問題の両方において,平均的反復のほぼ無限収束率をガウスのスケールした和に解析する。
論文 参考訳(メタデータ) (2024-10-19T10:27:26Z) - Effectiveness of Constant Stepsize in Markovian LSA and Statistical
Inference [9.689344942945652]
マルコフデータを用いた線形近似 (LSA) アルゴリズムを用いて, 統計的推論における定常ステップサイズの有効性について検討した。
この結果から,データに制限がある場合には,パラメータ調整や高速収束,CIカバレッジの向上が期待できることがわかった。
論文 参考訳(メタデータ) (2023-12-18T02:51:57Z) - Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability [17.771354881467435]
一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。
本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
論文 参考訳(メタデータ) (2023-10-22T12:37:25Z) - Variational sparse inverse Cholesky approximation for latent Gaussian
processes via double Kullback-Leibler minimization [6.012173616364571]
後肢の変分近似とSIC制限したKulback-Leibler-Optimal近似を併用した。
この設定のために、我々の変分近似は反復毎の多対数時間で勾配降下によって計算できる。
本稿では,DKLGP(Double-Kullback-Leibler-Optimal Gaussian-process approximation)を提案する。
論文 参考訳(メタデータ) (2023-01-30T21:50:08Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z) - Finite-Sample Analysis of Stochastic Approximation Using Smooth Convex
Envelopes [40.31139355952393]
一般化エンベロープを用いて滑らかなリャプノフ函数を構築し、そのリャプノフ函数に対してSAの反復体が負のドリフトを持つことを示す。
特に、政治以外のTD学習において、Vトレースアルゴリズムの最初の既知収束率を確立するためにこれを用いる。
また、TD学習を現場で研究し、既存の最先端の成果を$Q$ラーニングで回収する。
論文 参考訳(メタデータ) (2020-02-03T16:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。