Fugu-MT 論文翻訳(概要): Gaussian Approximation and Multiplier Bootstrap for Polyak-Ruppert Averaged Linear Stochastic Approximation with Applications to TD Learning

論文の概要: Gaussian Approximation and Multiplier Bootstrap for Polyak-Ruppert Averaged Linear Stochastic Approximation with Applications to TD Learning

arxiv url: http://arxiv.org/abs/2405.16644v2
Date: Sun, 02 Feb 2025 12:01:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.067288
Title: Gaussian Approximation and Multiplier Bootstrap for Polyak-Ruppert Averaged Linear Stochastic Approximation with Applications to TD Learning
Title（参考訳）: 平均線形確率近似に対するガウス近似と乗算器ブートストラップとTD学習への応用
Authors: Sergey Samsonov, Eric Moulines, Qi-Man Shao, Zhuo-Song Zhang, Alexey Naumov,
Abstract要約: マルチプライアブートストラップに基づくパラメータ推定において,信頼区間の非漸近的妥当性を証明した。本稿では,線形関数近似を用いた時間差学習の設定について述べる。
参考スコア（独自算出の注目度）: 15.041074872715752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we obtain the Berry-Esseen bound for multivariate normal approximation for the Polyak-Ruppert averaged iterates of the linear stochastic approximation (LSA) algorithm with decreasing step size. Moreover, we prove the non-asymptotic validity of the confidence intervals for parameter estimation with LSA based on multiplier bootstrap. This procedure updates the LSA estimate together with a set of randomly perturbed LSA estimates upon the arrival of subsequent observations. We illustrate our findings in the setting of temporal difference learning with linear function approximation.
Abstract（参考訳）: 本稿では, 線形確率近似(LSA)アルゴリズムの多変量正規近似に対するBerry-Esseen境界を求める。さらに,マルチプライヤブートストラップに基づくパラメータ推定において,信頼区間の非漸近的妥当性を証明した。この手順は、後続の観測が到着すると、ランダムに摂動したLSA推定値と共にLSA推定値を更新する。本稿では,線形関数近似を用いた時間差学習の設定について述べる。

関連論文リスト

Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation [28.34847294888529]
我々は、ポリャク=ジュディツキー中心極限定理によって予測される共分散行列を持つガウス分布による正規近似を考える。平均化LSA推定器の再スケール誤差の分布を近似するために,乗算器ブートストラップ法の非漸近的妥当性を証明した。
論文参考訳（メタデータ） (2025-10-14T10:50:10Z)
Gaussian Approximation for Two-Timescale Linear Stochastic Approximation [4.4491311274892436]
We establish algorithm driven by martingale difference or Markov noise。確率間の凸距離の観点から正規近似のバウンダリを導出する。また,線形TTSAアルゴリズムの誤差に対する高次モーメント境界も提供する。
論文参考訳（メタデータ） (2025-08-11T12:41:14Z)
Statistical inference for Linear Stochastic Approximation with Markovian Noise [16.136756322711545]
マルコフ雑音によって駆動される線形近似(LSA)アルゴリズムの平均反復量に対して,非漸近Berry-Esseen境界を導出する。我々の研究は、マルコフ雑音による近似に対するブートストラップに基づく信頼区間の収束率に関する最初の漸近的保証を提供する。
論文参考訳（メタデータ） (2025-05-25T11:43:28Z)
Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文参考訳（メタデータ） (2025-02-19T15:33:55Z)
Gaussian Approximation and Multiplier Bootstrap for Stochastic Gradient Descent [14.19520637866741]
信頼性セット構築のための乗算器ブートストラップの非漸近的妥当性を確立する。我々は1/sqrtn$までの凸距離の近似レートを導出する。
論文参考訳（メタデータ） (2025-02-10T17:49:05Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Asymptotic Time-Uniform Inference for Parameters in Averaged Stochastic Approximation [23.89036529638614]
近似(SA)におけるパラメータの時間一様統計的推測について検討する。線形および非線形のSA問題の両方において,平均的反復のほぼ無限収束率をガウスのスケールした和に解析する。
論文参考訳（メタデータ） (2024-10-19T10:27:26Z)
A Finite-Sample Analysis of an Actor-Critic Algorithm for Mean-Variance Optimization in a Discounted MDP [1.0923877073891446]
政策評価のために線形関数近似(LFA)を用いた時間差分学習アルゴリズムを解析する。我々は、(i) を平均二乗の意味で保持し、(ii) を尾の反復平均化の下で高い確率で導く有限サンプル境界を導出する。これらの結果は、強化学習におけるリスクに敏感なアクター批判法に対する有限サンプル理論的保証を確立する。
論文参考訳（メタデータ） (2024-06-12T05:49:53Z)
Effectiveness of Constant Stepsize in Markovian LSA and Statistical Inference [9.689344942945652]
マルコフデータを用いた線形近似 (LSA) アルゴリズムを用いて, 統計的推論における定常ステップサイズの有効性について検討した。この結果から,データに制限がある場合には,パラメータ調整や高速収束,CIカバレッジの向上が期待できることがわかった。
論文参考訳（メタデータ） (2023-12-18T02:51:57Z)
Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability [17.771354881467435]
一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
論文参考訳（メタデータ） (2023-10-22T12:37:25Z)
Variational sparse inverse Cholesky approximation for latent Gaussian processes via double Kullback-Leibler minimization [6.012173616364571]
後肢の変分近似とSIC制限したKulback-Leibler-Optimal近似を併用した。この設定のために、我々の変分近似は反復毎の多対数時間で勾配降下によって計算できる。本稿では,DKLGP(Double-Kullback-Leibler-Optimal Gaussian-process approximation)を提案する。
論文参考訳（メタデータ） (2023-01-30T21:50:08Z)
Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。提案手法はRパッケージプローブに実装されている。
論文参考訳（メタデータ） (2022-09-16T19:15:50Z)
Hessian Averaging in Stochastic Newton Methods Achieves Superlinear Convergence [69.65563161962245]
ニュートン法を用いて,滑らかで強凸な目的関数を考える。最適段階において局所収束に遷移する普遍重み付き平均化スキームが存在することを示す。
論文参考訳（メタデータ） (2022-04-20T07:14:21Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-08T00:43:04Z)
A maximum-entropy approach to off-policy evaluation in average-reward MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文参考訳（メタデータ） (2020-06-17T18:13:37Z)
On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文参考訳（メタデータ） (2020-04-09T17:54:18Z)
SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文参考訳（メタデータ） (2020-03-05T14:33:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。