論文の概要: Statistical Inference for Temporal Difference Learning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2410.16106v3
- Date: Wed, 28 May 2025 00:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:26.742533
- Title: Statistical Inference for Temporal Difference Learning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた時間差学習の統計的推測
- Authors: Weichen Wu, Gen Li, Yuting Wei, Alessandro Rinaldo,
- Abstract要約: The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
現在の最先端の成果を改善するために,3つの重要なコントリビューションを行います。
- 参考スコア(独自算出の注目度): 62.69448336714418
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We investigate the statistical properties of Temporal Difference (TD) learning with Polyak-Ruppert averaging, arguably one of the most widely used algorithms in reinforcement learning, for the task of estimating the parameters of the optimal linear approximation to the value function. We make three significant contributions that improve the current state-of-the-art results: (i) we derive sharper high probability convergence guarantee that depend explicitly on the asymptotic variance and hold under weaker conditions than those normally assumed; (ii) we establish refined high-dimensional Berry-Esseen bounds over the class of convex sets, achieving faster rates than those previously established in the literature, and (iii) we propose and analyze a novel, computationally efficient online plug-in estimator of the asymptotic covariance matrix.These results enable the construction of confidence regions and simultaneous confidence intervals for the linear parameters of the value function approximation, with guaranteed finite-sample coverage. We demonstrate the applicability of our theoretical findings through numerical experiments.
- Abstract(参考訳): 本稿では,線形近似のパラメータを値関数に推定するタスクにおいて,Polyak-Ruppert平均化を用いた時間差分学習(TD)の統計的特性について検討する。
私たちは、現在の最先端の成果を改善するために、3つの重要な貢献をしています。
i) 漸近的分散に明示的に依存し,通常想定されるものよりも弱い条件下で保持する,より鋭い高確率収束保証を導出する。
(II) 凸集合のクラスに洗練された高次元ベリー-エッセイン境界を定め、それまで文献で確立されていたものよりも高速な速度を達成する。
3) 漸近的共分散行列の新しいオンラインプラグイン推定器を提案し, 解析し, 有限サンプルカバレッジを保証した値関数近似の線形パラメータに対する信頼領域と同時信頼区間の構築を可能にする。
数値実験により理論的結果の適用性を実証した。
関連論文リスト
- Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。
我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - High Confidence Level Inference is Almost Free using Parallel Stochastic
Optimization [16.38026811561888]
本稿では,高効率計算と高速収束による信頼区間構築に焦点をあてた新しい推論手法を提案する。
提案手法は,推定値の標準的な更新を超える最小限の計算量とメモリを必要とするため,推論処理はほとんどコストがかからない。
論文 参考訳(メタデータ) (2024-01-17T17:11:45Z) - Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability [17.771354881467435]
一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。
本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
論文 参考訳(メタデータ) (2023-10-22T12:37:25Z) - Optimal Learning via Moderate Deviations Theory [4.6930976245638245]
我々は、中等度偏差原理に基づくアプローチを用いて、高精度な信頼区間の体系的構築を開発する。
提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。
論文 参考訳(メタデータ) (2023-05-23T19:57:57Z) - Online Statistical Inference for Nonlinear Stochastic Approximation with
Markovian Data [22.59079286063505]
マルコフデータの単一軌跡を用いた非線形近似アルゴリズムの統計的推定について検討した。
本手法は,自動回帰データや非同期Q-Learningにおけるグラディエント・Descent (SGD) など,様々なシナリオで実用化されている。
論文 参考訳(メタデータ) (2023-02-15T14:31:11Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。