論文の概要: Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning
- arxiv url: http://arxiv.org/abs/2502.13822v2
- Date: Sat, 06 Sep 2025 14:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:02.922837
- Title: Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning
- Title(参考訳): マルコフ連鎖誘導マチンガレの不確かさ定量化と時間差学習への応用
- Authors: Weichen Wu, Yuting Wei, Alessandro Rinaldo,
- Abstract要約: 線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
- 参考スコア(独自算出の注目度): 55.197497603087065
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We establish novel and general high-dimensional concentration inequalities and Berry-Esseen bounds for vector-valued martingales induced by Markov chains. We apply these results to analyze the performance of the Temporal Difference (TD) learning algorithm with linear function approximations, a widely used method for policy evaluation in Reinforcement Learning (RL), obtaining a sharp high-probability consistency guarantee that matches the asymptotic variance up to logarithmic factors. Furthermore, we establish an $O(T^{-\frac{1}{4}}\log T)$ distributional convergence rate for the Gaussian approximation of the TD estimator, measured in convex distance. Our martingale bounds are of broad applicability, and our analysis of TD learning provides new insights into statistical inference for RL algorithms, bridging gaps between classical stochastic approximation theory and modern RL applications.
- Abstract(参考訳): マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
これらの結果は,線形関数近似を用いた時間差分学習(TD)アルゴリズムの性能解析に応用され,強化学習(RL)におけるポリシー評価の手法として広く用いられている。
さらに、凸距離で測定されたTD推定器のガウス近似に対する$O(T^{-\frac{1}{4}}\log T)$分布収束率を確立する。
我々のマーチンゲール境界は広く適用可能であり、我々のTD学習分析は、RLアルゴリズムの統計的推論、古典確率近似理論と現代のRL応用の間の橋渡しギャップに関する新しい洞察を提供する。
関連論文リスト
- Online Inference for Quantiles by Constant Learning-Rate Stochastic Gradient Descent [4.2694059987063655]
本稿では,理論的保証付き量子損失関数の学習速度を一定としたオンライン勾配勾配勾配推定法を提案する。
数値解析により,提案した量子推定器の強い有限サンプル性能と推定法が示された。
論文 参考訳(メタデータ) (2025-03-04T01:37:42Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - An Analysis of Quantile Temporal-Difference Learning [53.36758478669685]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文 参考訳(メタデータ) (2023-01-11T13:41:56Z) - Comparison of Markov chains via weak Poincar\'e inequalities with
application to pseudo-marginal MCMC [0.0]
マルコフ連鎖の平衡への有界収束に対する弱ポアンカーの不等式として知られるある種の機能的不等式の使用について検討する。
本研究では, 独立メトロポリス・ハスティングス・サンプリング法や, 難易度を求める疑似マルジナル手法などの手法に対して, サブ幾何学的収束境界の導出を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:36:30Z) - Online Bootstrap Inference For Policy Evaluation in Reinforcement
Learning [90.59143158534849]
近年の強化学習の出現は、頑健な統計的推論手法の需要を生み出している。
オンライン学習における統計的推論の既存の方法は、独立してサンプリングされた観察を含む設定に限られる。
オンラインブートストラップは線形近似アルゴリズムにおける統計的推測のための柔軟で効率的な手法であるが、マルコフノイズを含む設定における有効性はまだ検討されていない。
論文 参考訳(メタデータ) (2021-08-08T18:26:35Z) - Three rates of convergence or separation via U-statistics in a dependent
framework [5.929956715430167]
我々はこの理論的なブレークスルーを、3つの異なる研究分野における現在の知識の状態を推し進めることで実行した。
まず、MCMC法によるトレースクラス積分作用素のスペクトル推定のための新しい指数関数不等式を確立する。
さらに、ペアワイズ損失関数とマルコフ連鎖サンプルを扱うオンラインアルゴリズムの一般化性能について検討する。
論文 参考訳(メタデータ) (2021-06-24T07:10:36Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。