Fugu-MT 論文翻訳(概要): Finite-Sample Analysis of the Temporal Difference Learning

論文の概要: Finite-Sample Analysis of the Temporal Difference Learning

arxiv url: http://arxiv.org/abs/2310.14286v1
Date: Sun, 22 Oct 2023 12:37:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 00:43:21.169754
Title: Finite-Sample Analysis of the Temporal Difference Learning
Title（参考訳）: 時間差学習における有限サンプル解析
Authors: Sergey Samsonov, Daniil Tiapkin, Alexey Naumov, Eric Moulines
Abstract要約: 一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
参考スコア（独自算出の注目度）: 19.41392852257322
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we consider the problem of obtaining sharp bounds for the performance of temporal difference (TD) methods with linear functional approximation for policy evaluation in discounted Markov Decision Processes. We show that a simple algorithm with a universal and instance-independent step size together with Polyak-Ruppert tail averaging is sufficient to obtain near-optimal variance and bias terms. We also provide the respective sample complexity bounds. Our proof technique is based on refined error bounds for linear stochastic approximation together with the novel stability result for the product of random matrices that arise from the TD-type recurrence.
Abstract（参考訳）: 本稿では,割引マルコフ決定過程における政策評価のための線形関数近似を用いた時間差法(td)の性能向上のための鋭い境界を求める問題を考える。本稿では,Polyak-Rupperttail averagingと組み合わせた,普遍的かつインスタンスに依存しないステップサイズを持つ単純なアルゴリズムが,ほぼ最適分散とバイアス項を得るのに十分であることを示す。それぞれのサンプル複雑性境界も提供します。提案手法は, 線形確率近似のための洗練された誤差境界と, TD型再帰から生じるランダム行列の積に対する新しい安定性結果に基づいている。

関連論文リスト

Uniform-in-time convergence bounds for Persistent Contrastive Divergence Algorithms [0.29494468099506904]
非正規化密度の最大最大値推定(MLE)のための持続的コントラスト分散(PCD)の連続時間定式化を提案する。我々は,PCDとモデルパラメータのMLE解との誤差に対して,明示的な境界を導出することができる。
論文参考訳（メタデータ） (2025-10-02T12:12:33Z)
Quantitative Error Bounds for Scaling Limits of Stochastic Iterative Algorithms [10.022615790746466]
アルゴリズムのサンプルパスとOrnstein-Uhlenbeck近似の非漸近関数近似誤差を導出する。我々は、L'evy-Prokhorov と有界ワッサーシュタイン距離という2つの一般的な測度で誤差境界を構築するために、主要な結果を使用する。
論文参考訳（メタデータ） (2025-01-21T15:29:11Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP [1.0923877073891446]
割引報酬マルコフ決定プロセスにおける分散政策評価の問題点を考察する。本稿では,線形関数近似(LFA)を用いた時間差分型学習アルゴリズムについて述べる。平均二乗の意味で(i) を保持する有限標本境界と、(ii) テールイテレート平均化を用いる場合の高い確率を導出する。
論文参考訳（メタデータ） (2024-06-12T05:49:53Z)
A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文参考訳（メタデータ） (2024-05-24T21:09:19Z)
High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文参考訳（メタデータ） (2023-05-30T12:58:39Z)
Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。モデルに基づく手法では、MVPアルゴリズムの変種を設計する。特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文参考訳（メタデータ） (2023-01-31T06:54:06Z)
The Stochastic Proximal Distance Algorithm [5.3315823983402755]
本稿では,所望の制約付き推定問題をペナルティパラメータとして回復する反復最適化手法のクラスを提案し,解析する。我々は、最近の理論装置を拡張して有限誤差境界を確立し、収束率の完全な評価を行う。また,本手法が一般的な学習課題のバッチバージョンより優れていることを示す。
論文参考訳（メタデータ） (2022-10-21T22:07:28Z)
Accelerated and instance-optimal policy evaluation with linear function approximation [17.995515643150657]
既存のアルゴリズムはこれらの下界の少なくとも1つと一致しない。我々は,両下界を同時に一致させる高速時間差分アルゴリズムを開発し,インスタンス最適性という強い概念を実現する。
論文参考訳（メタデータ） (2021-12-24T17:21:04Z)
Uniform-PAC Bounds for Reinforcement Learning with Linear Function Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文参考訳（メタデータ） (2021-06-22T08:48:56Z)
Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文参考訳（メタデータ） (2020-12-09T20:19:32Z)
Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文参考訳（メタデータ） (2020-03-16T17:15:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。