Fugu-MT 論文翻訳(概要): Statistical Inference for Temporal Difference Learning with Linear Function Approximation

論文の概要: Statistical Inference for Temporal Difference Learning with Linear Function Approximation

arxiv url: http://arxiv.org/abs/2410.16106v3
Date: Wed, 28 May 2025 00:49:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 15:04:26.742533
Title: Statistical Inference for Temporal Difference Learning with Linear Function Approximation
Title（参考訳）: 線形関数近似を用いた時間差学習の統計的推測
Authors: Weichen Wu, Gen Li, Yuting Wei, Alessandro Rinaldo,
Abstract要約: The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。現在の最先端の成果を改善するために,3つの重要なコントリビューションを行います。
参考スコア（独自算出の注目度）: 62.69448336714418
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: We investigate the statistical properties of Temporal Difference (TD) learning with Polyak-Ruppert averaging, arguably one of the most widely used algorithms in reinforcement learning, for the task of estimating the parameters of the optimal linear approximation to the value function. We make three significant contributions that improve the current state-of-the-art results: (i) we derive sharper high probability convergence guarantee that depend explicitly on the asymptotic variance and hold under weaker conditions than those normally assumed; (ii) we establish refined high-dimensional Berry-Esseen bounds over the class of convex sets, achieving faster rates than those previously established in the literature, and (iii) we propose and analyze a novel, computationally efficient online plug-in estimator of the asymptotic covariance matrix.These results enable the construction of confidence regions and simultaneous confidence intervals for the linear parameters of the value function approximation, with guaranteed finite-sample coverage. We demonstrate the applicability of our theoretical findings through numerical experiments.
Abstract（参考訳）: 本稿では,線形近似のパラメータを値関数に推定するタスクにおいて,Polyak-Ruppert平均化を用いた時間差分学習(TD)の統計的特性について検討する。私たちは、現在の最先端の成果を改善するために、3つの重要な貢献をしています。 i) 漸近的分散に明示的に依存し,通常想定されるものよりも弱い条件下で保持する,より鋭い高確率収束保証を導出する。 (II) 凸集合のクラスに洗練された高次元ベリー-エッセイン境界を定め、それまで文献で確立されていたものよりも高速な速度を達成する。 3) 漸近的共分散行列の新しいオンラインプラグイン推定器を提案し, 解析し, 有限サンプルカバレッジを保証した値関数近似の線形パラメータに対する信頼領域と同時信頼区間の構築を可能にする。数値実験により理論的結果の適用性を実証した。

関連論文リスト

Neural Optimal Transport Meets Multivariate Conformal Prediction [58.43397908730771]
条件付きベクトル回帰(CVQR)のためのフレームワークを提案する。 CVQRは、ニューラルネットワークの最適輸送と量子化された最適化を組み合わせて、予測に適用する。
論文参考訳（メタデータ） (2025-09-29T19:50:19Z)
Efficient Adaptive Experimentation with Non-Compliance [39.43227019824619]
本研究では, 適応実験における平均治療効果 (ATE) の推定問題について検討する。 AMRIV は最適アロケーションを (ii) 乗算整合性を維持しつつ半パラメトリック効率を達成できる逐次的影響関数に基づく推定器で適応的に近似するオンラインポリシーである。
論文参考訳（メタデータ） (2025-05-23T04:49:14Z)
Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文参考訳（メタデータ） (2025-02-19T15:33:55Z)
Bounds in Wasserstein Distance for Locally Stationary Processes [0.29771206318712146]
本研究では,局所定常(LSP)データに適した条件付き確率分布推定器を提案する。我々は、ワーッサーシュタイン計量の下で、NWに基づく条件付き確率推定器の収束率を厳格に設定する。合成データセットの広範な数値シミュレーションを行い,実世界のデータを用いた実証検証を行った。
論文参考訳（メタデータ） (2024-12-04T15:51:22Z)
Asymptotic Time-Uniform Inference for Parameters in Averaged Stochastic Approximation [23.89036529638614]
近似(SA)におけるパラメータの時間一様統計的推測について検討する。線形および非線形のSA問題の両方において,平均的反復のほぼ無限収束率をガウスのスケールした和に解析する。
論文参考訳（メタデータ） (2024-10-19T10:27:26Z)
Statistical Inference of Optimal Allocations I: Regularities and their Implications [5.911223351920214]
ソート演算子の特性を解析することにより,値関数のアダマール微分性を導出する。アダマール微分可能性の結果に基づいて,関数デルタ法を適用して値関数過程の特性を求める。値関数に対する二重/脱バイアス推定器を提案する。
論文参考訳（メタデータ） (2024-03-27T04:39:13Z)
Online Learning Approach for Survival Analysis [1.0499611180329806]
生存分析のためのオンライン数学フレームワークを導入し、動的環境や検閲データへのリアルタイム適応を可能にする。このフレームワークは、最適2階オンライン凸最適化アルゴリズムによるイベント時間分布の推定を可能にする-オンラインニュートンステップ(ONS)
論文参考訳（メタデータ） (2024-02-07T08:15:30Z)
Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文参考訳（メタデータ） (2024-01-28T21:19:15Z)
High Confidence Level Inference is Almost Free using Parallel Stochastic Optimization [16.38026811561888]
本稿では,高効率計算と高速収束による信頼区間構築に焦点をあてた新しい推論手法を提案する。提案手法は,推定値の標準的な更新を超える最小限の計算量とメモリを必要とするため,推論処理はほとんどコストがかからない。
論文参考訳（メタデータ） (2024-01-17T17:11:45Z)
Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability [17.771354881467435]
一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
論文参考訳（メタデータ） (2023-10-22T12:37:25Z)
Optimal Learning via Moderate Deviations Theory [4.6930976245638245]
我々は、中等度偏差原理に基づくアプローチを用いて、高精度な信頼区間の体系的構築を開発する。提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。
論文参考訳（メタデータ） (2023-05-23T19:57:57Z)
Online Statistical Inference for Nonlinear Stochastic Approximation with Markovian Data [22.59079286063505]
マルコフデータの単一軌跡を用いた非線形近似アルゴリズムの統計的推定について検討した。本手法は,自動回帰データや非同期Q-Learningにおけるグラディエント・Descent (SGD) など,様々なシナリオで実用化されている。
論文参考訳（メタデータ） (2023-02-15T14:31:11Z)
Statistical Optimality of Divide and Conquer Kernel-based Functional Linear Regression [1.7227952883644062]
本稿では,対象関数が基礎となるカーネル空間に存在しないシナリオにおいて,分割・コンカレント推定器の収束性能について検討する。分解に基づくスケーラブルなアプローチとして、関数線形回帰の分割・収束推定器は、時間とメモリにおけるアルゴリズムの複雑さを大幅に減らすことができる。
論文参考訳（メタデータ） (2022-11-20T12:29:06Z)
Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文参考訳（メタデータ） (2022-08-29T16:16:22Z)
A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2021-08-22T16:00:45Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency [83.02999769628593]
強化学習におけるオフ・ポリティィ・アセスメント(OPE)の理論的特徴について述べる。ミニマックス法により、重みと品質関数の高速収束を実現することができることを示す。非タブラル環境における1次効率を持つ最初の有限サンプル結果を示す。
論文参考訳（メタデータ） (2021-02-05T03:20:39Z)
CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文参考訳（メタデータ） (2020-10-22T12:39:11Z)
Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文参考訳（メタデータ） (2020-06-12T00:32:21Z)
Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文参考訳（メタデータ） (2020-03-05T19:56:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。