論文の概要: Uncertainty quantification for Markov chains with application to temporal difference learning
- arxiv url: http://arxiv.org/abs/2502.13822v1
- Date: Wed, 19 Feb 2025 15:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:23.756035
- Title: Uncertainty quantification for Markov chains with application to temporal difference learning
- Title(参考訳): マルコフ連鎖の不確かさ定量化と時間差分学習への応用
- Authors: Weichen Wu, Yuting Wei, Alessandro Rinaldo,
- Abstract要約: マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。
我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
- 参考スコア(独自算出の注目度): 63.49764856675643
- License:
- Abstract: Markov chains are fundamental to statistical machine learning, underpinning key methodologies such as Markov Chain Monte Carlo (MCMC) sampling and temporal difference (TD) learning in reinforcement learning (RL). Given their widespread use, it is crucial to establish rigorous probabilistic guarantees on their convergence, uncertainty, and stability. In this work, we develop novel, high-dimensional concentration inequalities and Berry-Esseen bounds for vector- and matrix-valued functions of Markov chains, addressing key limitations in existing theoretical tools for handling dependent data. We leverage these results to analyze the TD learning algorithm, a widely used method for policy evaluation in RL. Our analysis yields a sharp high-probability consistency guarantee that matches the asymptotic variance up to logarithmic factors. Furthermore, we establish a $O(T^{-\frac{1}{4}}\log T)$ distributional convergence rate for the Gaussian approximation of the TD estimator, measured in convex distance. These findings provide new insights into statistical inference for RL algorithms, bridging the gaps between classical stochastic approximation theory and modern reinforcement learning applications.
- Abstract(参考訳): マルコフ連鎖は統計機械学習の基礎であり、マルコフ・チェイン・モンテカルロ(MCMC)サンプリングや強化学習(RL)における時間差学習(TD)学習といった重要な方法論の基盤となっている。
広く利用されていることから、その収束、不確実性、安定性に関する厳密な確率的保証を確立することが重要である。
本研究では,マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発し,従属データを扱うための既存の理論ツールにおける鍵となる制約に対処する。
RLにおける政策評価手法であるTD学習アルゴリズムの解析にこれらの結果を活用する。
我々の分析は、漸近的変動を対数的要因に一致させる、急激な高確率整合性を保証する。
さらに、凸距離で測定されたTD推定器のガウス近似に対する$O(T^{-\frac{1}{4}}\log T)$分布収束率を確立する。
これらの結果は、古典確率近似理論と現代の強化学習応用とのギャップを埋める、RLアルゴリズムの統計的推論に関する新たな洞察を与える。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - An Analysis of Quantile Temporal-Difference Learning [53.36758478669685]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文 参考訳(メタデータ) (2023-01-11T13:41:56Z) - Comparison of Markov chains via weak Poincar\'e inequalities with
application to pseudo-marginal MCMC [0.0]
マルコフ連鎖の平衡への有界収束に対する弱ポアンカーの不等式として知られるある種の機能的不等式の使用について検討する。
本研究では, 独立メトロポリス・ハスティングス・サンプリング法や, 難易度を求める疑似マルジナル手法などの手法に対して, サブ幾何学的収束境界の導出を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:36:30Z) - Online Bootstrap Inference For Policy Evaluation in Reinforcement
Learning [90.59143158534849]
近年の強化学習の出現は、頑健な統計的推論手法の需要を生み出している。
オンライン学習における統計的推論の既存の方法は、独立してサンプリングされた観察を含む設定に限られる。
オンラインブートストラップは線形近似アルゴリズムにおける統計的推測のための柔軟で効率的な手法であるが、マルコフノイズを含む設定における有効性はまだ検討されていない。
論文 参考訳(メタデータ) (2021-08-08T18:26:35Z) - Three rates of convergence or separation via U-statistics in a dependent
framework [5.929956715430167]
我々はこの理論的なブレークスルーを、3つの異なる研究分野における現在の知識の状態を推し進めることで実行した。
まず、MCMC法によるトレースクラス積分作用素のスペクトル推定のための新しい指数関数不等式を確立する。
さらに、ペアワイズ損失関数とマルコフ連鎖サンプルを扱うオンラインアルゴリズムの一般化性能について検討する。
論文 参考訳(メタデータ) (2021-06-24T07:10:36Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。