論文の概要: Gaussian Approximation and Multiplier Bootstrap for Polyak-Ruppert Averaged Linear Stochastic Approximation with Applications to TD Learning
- arxiv url: http://arxiv.org/abs/2405.16644v1
- Date: Sun, 26 May 2024 17:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:58:16.000180
- Title: Gaussian Approximation and Multiplier Bootstrap for Polyak-Ruppert Averaged Linear Stochastic Approximation with Applications to TD Learning
- Title(参考訳): 平均線形確率近似に対するガウス近似と乗算器ブートストラップとTD学習への応用
- Authors: Sergey Samsonov, Eric Moulines, Qi-Man Shao, Zhuo-Song Zhang, Alexey Naumov,
- Abstract要約: マルチプライヤブートストラップに基づくパラメータ推定における信頼区間の有効性を検証した。
本稿では,線形関数近似を用いた時間差学習の設定について述べる。
- 参考スコア(独自算出の注目度): 15.041074872715752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we obtain the Berry-Esseen bound for multivariate normal approximation for the Polyak-Ruppert averaged iterates of the linear stochastic approximation (LSA) algorithm with decreasing step size. Our findings reveal that the fastest rate of normal approximation is achieved when setting the most aggressive step size $\alpha_{k} \asymp k^{-1/2}$. Moreover, we prove the non-asymptotic validity of the confidence intervals for parameter estimation with LSA based on multiplier bootstrap. This procedure updates the LSA estimate together with a set of randomly perturbed LSA estimates upon the arrival of subsequent observations. We illustrate our findings in the setting of temporal difference learning with linear function approximation.
- Abstract(参考訳): 本稿では, 線形確率近似(LSA)アルゴリズムの多変量正規近似に対するBerry-Esseen境界を求める。
以上の結果から,最も攻撃的なステップサイズを$\alpha_{k} \asymp k^{-1/2}$と設定すると,正規近似の速度が最速であることが判明した。
さらに,マルチプライヤブートストラップに基づくパラメータ推定において,信頼区間の非漸近的妥当性を証明した。
この手順は、後続の観測が到着すると、ランダムに摂動したLSA推定値と共にLSA推定値を更新する。
本稿では,線形関数近似を用いた時間差学習の設定について述べる。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Asymptotic Time-Uniform Inference for Parameters in Averaged Stochastic Approximation [23.89036529638614]
近似(SA)におけるパラメータの時間一様統計的推測について検討する。
線形および非線形のSA問題の両方において,平均的反復のほぼ無限収束率をガウスのスケールした和に解析する。
論文 参考訳(メタデータ) (2024-10-19T10:27:26Z) - Effectiveness of Constant Stepsize in Markovian LSA and Statistical
Inference [9.689344942945652]
マルコフデータを用いた線形近似 (LSA) アルゴリズムを用いて, 統計的推論における定常ステップサイズの有効性について検討した。
この結果から,データに制限がある場合には,パラメータ調整や高速収束,CIカバレッジの向上が期待できることがわかった。
論文 参考訳(メタデータ) (2023-12-18T02:51:57Z) - Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability [17.771354881467435]
一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。
本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
論文 参考訳(メタデータ) (2023-10-22T12:37:25Z) - Variational sparse inverse Cholesky approximation for latent Gaussian
processes via double Kullback-Leibler minimization [6.012173616364571]
後肢の変分近似とSIC制限したKulback-Leibler-Optimal近似を併用した。
この設定のために、我々の変分近似は反復毎の多対数時間で勾配降下によって計算できる。
本稿では,DKLGP(Double-Kullback-Leibler-Optimal Gaussian-process approximation)を提案する。
論文 参考訳(メタデータ) (2023-01-30T21:50:08Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Hessian Averaging in Stochastic Newton Methods Achieves Superlinear
Convergence [69.65563161962245]
ニュートン法を用いて,滑らかで強凸な目的関数を考える。
最適段階において局所収束に遷移する普遍重み付き平均化スキームが存在することを示す。
論文 参考訳(メタデータ) (2022-04-20T07:14:21Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。