Fugu-MT 論文翻訳(概要): Finite time analysis of temporal difference learning with linear function approximation: Tail averaging and regularisation

論文の概要: Finite time analysis of temporal difference learning with linear function approximation: Tail averaging and regularisation

arxiv url: http://arxiv.org/abs/2210.05918v2
Date: Mon, 11 Sep 2023 04:22:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 23:11:12.462848
Title: Finite time analysis of temporal difference learning with linear function approximation: Tail averaging and regularisation
Title（参考訳）: 線形関数近似による時間差学習の有限時間解析:末尾平均化と正規化
Authors: Gandharv Patil, Prashanth L.A., Dheeraj Nagaraj, Doina Precup
Abstract要約: そこで本研究では,TD学習アルゴリズムの時間的有限性について検討した。ステップサイズ選択の下で、テール平均TDのパラメータ誤差に基づいて有限時間境界を導出する。
参考スコア（独自算出の注目度）: 44.27439128304058
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We study the finite-time behaviour of the popular temporal difference (TD) learning algorithm when combined with tail-averaging. We derive finite time bounds on the parameter error of the tail-averaged TD iterate under a step-size choice that does not require information about the eigenvalues of the matrix underlying the projected TD fixed point. Our analysis shows that tail-averaged TD converges at the optimal $O\left(1/t\right)$ rate, both in expectation and with high probability. In addition, our bounds exhibit a sharper rate of decay for the initial error (bias), which is an improvement over averaging all iterates. We also propose and analyse a variant of TD that incorporates regularisation. From analysis, we conclude that the regularised version of TD is useful for problems with ill-conditioned features.
Abstract（参考訳）: 一般時間差学習アルゴリズム(popular temporal difference:td)の有限時間挙動をテール平均化と組み合わせて検討した。予測された td の不動点の下にある行列の固有値に関する情報を必要としないステップサイズの選択の下で、テール平均 td のパラメータ誤差の有限時間境界を求める。我々の分析は、テール平均TDは期待値と高い確率の両方で最適な$O\left(1/t\right)$レートで収束することを示している。加えて、我々の境界は初期誤差(bias)に対してより鋭い減衰率を示し、全てのイテレートの平均よりも改善されている。また,正規化を組み込んだtdの変種を提案し,解析する。分析の結果,TDの正規化バージョンは不条件特徴の問題に有用であることがわかった。

関連論文リスト

A Finite-Time Analysis of TD Learning with Linear Function Approximation without Projections nor Strong Convexity [11.117572650083698]
線形関数近似を用いた時間差分学習(TD)の有限時間収束特性について検討する。単純な射影自由多様体は、マルコフノイズの存在下でさえ$tildemath||theta*||2sqrtT$の速度で収束することを示す。
論文参考訳（メタデータ） (2025-06-01T15:39:00Z)
Two-Timescale Linear Stochastic Approximation: Constant Stepsizes Go a Long Way [12.331596909999764]
マルコフ過程のレンズを通した等質化スキームについて検討する。我々は、定段化によって導入された分散とバイアスと同様に、明示的な幾何学的および非漸近収束率を導出する。
論文参考訳（メタデータ） (2024-10-16T21:49:27Z)
Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP [1.0923877073891446]
割引報酬マルコフ決定プロセスにおける分散政策評価の問題点を考察する。本稿では,線形関数近似(LFA)を用いた時間差分型学習アルゴリズムについて述べる。平均二乗の意味で(i) を保持する有限標本境界と、(ii) テールイテレート平均化を用いる場合の高い確率を導出する。
論文参考訳（メタデータ） (2024-06-12T05:49:53Z)
A Statistical Theory of Regularization-Based Continual Learning [10.899175512941053]
線形回帰タスクの順序に基づく正規化に基づく連続学習の統計的解析を行う。まず、全てのデータが同時に利用可能であるかのように得られたオラクル推定器の収束率を導出する。理論解析の副産物は、早期停止と一般化された$ell$-regularizationの等価性である。
論文参考訳（メタデータ） (2024-06-10T12:25:13Z)
Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文参考訳（メタデータ） (2024-02-19T03:08:02Z)
Distributed TD(0) with Almost No Communication [15.321579527891457]
線形関数近似を用いた時間差分学習の非漸近解析法を提案する。分散過程の収束時間がTD(0)の収束時間よりもN$の係数である線形時間高速化現象のバージョンを実証する。
論文参考訳（メタデータ） (2023-05-25T17:00:46Z)
Non-stationary Online Convex Optimization with Arbitrary Delays [50.46856739179311]
本稿では,非定常環境における遅延オンライン凸最適化(OCO)について検討する。まず, 遅延勾配の勾配降下ステップを, 到着順に応じて行う単純なアルゴリズム, DOGDを提案する。 DOGDが達成した動的後悔境界を$O(sqrtbardT(P_T+1))$に削減する改良アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-05-20T07:54:07Z)
PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning Method [49.93717224277131]
PEriodically Restarted-ETD(PEriodically Restarted-ETD)と呼ばれる新しいETD手法を提案する。 PER-ETD は ETD と同じ所望の固定点に収束するが, 指数的なサンプルの複雑性は向上する。
論文参考訳（メタデータ） (2021-10-13T17:40:12Z)
High-probability Bounds for Non-Convex Stochastic Optimization with Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文参考訳（メタデータ） (2021-06-28T00:17:01Z)
Last iterate convergence of SGD for Least-Squares in the Interpolation regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文参考訳（メタデータ） (2021-02-05T14:02:20Z)
Simple and optimal methods for stochastic variational inequalities, II: Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文参考訳（メタデータ） (2020-11-15T04:05:22Z)
ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文参考訳（メタデータ） (2020-08-28T14:46:56Z)
Bounding the expected run-time of nonconvex optimization with early stopping [2.7648976108201815]
本研究は,検証関数に基づく早期停止を用いた勾配に基づく最適化アルゴリズムの収束性について検討する。我々は、この停止規則が適切に定義されていることを保証する条件を導出し、この基準を満たすのに必要なイテレーション数と勾配評価の期待値のバウンダリを提供する。
論文参考訳（メタデータ） (2020-02-20T16:43:37Z)
Reanalysis of Variance Reduced Temporal Difference Learning [57.150444843282]
Korda と La が提案した分散還元型TD (VRTD) アルゴリズムは,マルコフサンプルを用いたオンラインTD学習に直接適用する。我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
論文参考訳（メタデータ） (2020-01-07T05:32:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。