論文の概要: Statistical guarantees for continuous-time policy evaluation: blessing of ellipticity and new tradeoffs
- arxiv url: http://arxiv.org/abs/2502.04297v1
- Date: Thu, 06 Feb 2025 18:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:29:20.268140
- Title: Statistical guarantees for continuous-time policy evaluation: blessing of ellipticity and new tradeoffs
- Title(参考訳): 継続的政策評価の統計的保証--楕円性と新たなトレードオフの祝福
- Authors: Wenlong Mou,
- Abstract要約: 連続時間マルコフ拡散過程における値関数の推定について検討する。
我々の研究は、最小二乗時間差法に対して漸近的でない統計的保証を提供する。
- 参考スコア(独自算出の注目度): 2.926192989090622
- License:
- Abstract: We study the estimation of the value function for continuous-time Markov diffusion processes using a single, discretely observed ergodic trajectory. Our work provides non-asymptotic statistical guarantees for the least-squares temporal-difference (LSTD) method, with performance measured in the first-order Sobolev norm. Specifically, the estimator attains an $O(1 / \sqrt{T})$ convergence rate when using a trajectory of length $T$; notably, this rate is achieved as long as $T$ scales nearly linearly with both the mixing time of the diffusion and the number of basis functions employed. A key insight of our approach is that the ellipticity inherent in the diffusion process ensures robust performance even as the effective horizon diverges to infinity. Moreover, we demonstrate that the Markovian component of the statistical error can be controlled by the approximation error, while the martingale component grows at a slower rate relative to the number of basis functions. By carefully balancing these two sources of error, our analysis reveals novel trade-offs between approximation and statistical errors.
- Abstract(参考訳): 連続時間マルコフ拡散過程の値関数を, 離散的に観察された1つのエルゴード軌道を用いて推定する。
我々の研究は、最小二乗時間差法(LSTD)に対する漸近的でない統計的保証を提供し、その性能は1次ソボレフノルムで測定する。
具体的には、推定子は長さ$T$の軌跡を使用するときに$O(1 / \sqrt{T})$収束率を得るが、特に、この値は拡散の混合時間と基底関数の数の両方でほぼ線形にスケールする。
我々のアプローチにおける重要な洞察は、拡散過程に固有の楕円性は、有効水平線が無限大に分岐しても、頑健な性能を保証することである。
さらに,統計誤差のマルコフ成分は近似誤差によって制御可能である一方で,マーチンゲール成分は基底関数の数に対して遅い速度で成長することを示した。
この2つの誤差源を慎重にバランスさせることにより,近似と統計的誤差の新たなトレードオフを明らかにする。
関連論文リスト
- Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。
我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - A Stability Principle for Learning under Non-Stationarity [1.1510009152620668]
非定常環境における統計的学習のための多目的フレームワークを開発する。
解析の中心には、関数間の類似性の尺度と、非定常データ列を準定常断片に分割するセグメンテーション技法の2つの新しい要素がある。
論文 参考訳(メタデータ) (2023-10-27T17:53:53Z) - Online Statistical Inference for Nonlinear Stochastic Approximation with
Markovian Data [22.59079286063505]
マルコフデータの単一軌跡を用いた非線形近似アルゴリズムの統計的推定について検討した。
本手法は,自動回帰データや非同期Q-Learningにおけるグラディエント・Descent (SGD) など,様々なシナリオで実用化されている。
論文 参考訳(メタデータ) (2023-02-15T14:31:11Z) - On the Statistical Benefits of Temporal Difference Learning [6.408072565019087]
アクションのデータセットと結果の長期的な報酬が与えられた場合、直接推定アプローチは値関数に適合する。
直感的な逆軌道プーリング係数は, 平均二乗誤差の減少率を完全に特徴付けることを示す。
2つの状態における値対号差の推定が劇的に改善できることを実証する。
論文 参考訳(メタデータ) (2023-01-30T21:02:25Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Policy evaluation from a single path: Multi-step methods, mixing and
mis-specification [45.88067550131531]
無限水平$gamma$-discounted Markov rewardプロセスの値関数の非パラメトリック推定について検討した。
カーネルベースの多段階時間差推定の一般的なファミリーに対して、漸近的でない保証を提供する。
論文 参考訳(メタデータ) (2022-11-07T23:15:25Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Learning Asynchronous and Error-prone Longitudinal Data via Functional
Calibration [4.446626375802735]
本稿では,測定誤差を伴う関数データに基づいて,経時的共変過程を効率的に学習する機能キャリブレーション手法を提案する。
時間不変係数を用いた回帰では、推定器はルート-n一貫性を持ち、ルート-n正規であり、時間可変係数モデルでは、推定器は最適な変動係数モデル収束率を有する。
提案手法の有効性とユーザビリティをシミュレーションにより検証し,全国女性健康研究への応用について検討した。
論文 参考訳(メタデータ) (2022-09-28T03:27:31Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。