論文の概要: Rates of Convergence in the Central Limit Theorem for Markov Chains,
with an Application to TD Learning
- arxiv url: http://arxiv.org/abs/2401.15719v2
- Date: Tue, 13 Feb 2024 06:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:31:23.754778
- Title: Rates of Convergence in the Central Limit Theorem for Markov Chains,
with an Application to TD Learning
- Title(参考訳): マルコフ連鎖における中心極限定理の収束率とTD学習への応用
- Authors: R. Srikant
- Abstract要約: ベクトル値マーチンゲール差分に対して,スタイン法を用いて漸近的でない中心極限定理を証明した。
次に、これらの結果を用いて、平均化を伴う時間差分学習(TD)のための非漸近的中心極限定理を確立することができることを示す。
- 参考スコア(独自算出の注目度): 9.989667515420898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We prove a non-asymptotic central limit theorem for vector-valued martingale
differences using Stein's method, and use Poisson's equation to extend the
result to functions of Markov Chains. We then show that these results can be
applied to establish a non-asymptotic central limit theorem for Temporal
Difference (TD) learning with averaging.
- Abstract(参考訳): スタイン法を用いてベクトル値マルティンゲール差分に対する非漸近中心極限定理を証明し、ポアソン方程式を用いてマルコフ連鎖の関数に結果を拡張する。
その結果、平均化を伴う時間差学習(td)のための非漸近中心極限定理の確立にこれらの結果が適用可能であることを示した。
関連論文リスト
- A Concentration Bound for TD(0) with Function Approximation [0.0]
私たちは、マルコフ連鎖の1つのサンプルパスからサンプルを採取して、オンラインTD学習に取り組みます。
我々は、TD(0) をマルティンゲールとマルコフの雑音による縮約近似アルゴリズムとして扱う。
論文 参考訳(メタデータ) (2023-12-16T11:33:12Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Online Statistical Inference for Nonlinear Stochastic Approximation with
Markovian Data [22.59079286063505]
マルコフデータの単一軌跡を用いた非線形近似アルゴリズムの統計的推定について検討した。
本手法は,自動回帰データや非同期Q-Learningにおけるグラディエント・Descent (SGD) など,様々なシナリオで実用化されている。
論文 参考訳(メタデータ) (2023-02-15T14:31:11Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Comparison of Markov chains via weak Poincar\'e inequalities with
application to pseudo-marginal MCMC [0.0]
マルコフ連鎖の平衡への有界収束に対する弱ポアンカーの不等式として知られるある種の機能的不等式の使用について検討する。
本研究では, 独立メトロポリス・ハスティングス・サンプリング法や, 難易度を求める疑似マルジナル手法などの手法に対して, サブ幾何学的収束境界の導出を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:36:30Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Mean-Square Analysis with An Application to Optimal Dimension Dependence
of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。
我々の理論解析は数値実験によってさらに検証される。
論文 参考訳(メタデータ) (2021-09-08T18:00:05Z) - Deviation inequalities for stochastic approximation by averaging [0.5586191108738562]
平均化および非平均化による近似モデルを含むマルコフ鎖のクラスを紹介します。
このような連鎖の分離リプシッツ函数に対する様々な偏差不等式を、マルティンゲール差分の可除確率変数上で異なるモーメント条件で確立する。
論文 参考訳(メタデータ) (2021-02-17T10:57:37Z) - Concentration inequality for U-statistics of order two for uniformly
ergodic Markov chains [0.0]
我々は、一様エルゴード型マルコフ鎖に対する位数2のU-統計量に対する濃度不等式を証明した。
独立確率変数と正準核のU統計値の集中結果を示したArconesとGin'eの収束率を復元できることが示される。
論文 参考訳(メタデータ) (2020-11-20T15:14:34Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。