論文の概要: Finite-Time Analysis of Temporal Difference Learning: Discrete-Time
Linear System Perspective
- arxiv url: http://arxiv.org/abs/2204.10479v6
- Date: Fri, 2 Jun 2023 07:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 21:15:43.965959
- Title: Finite-Time Analysis of Temporal Difference Learning: Discrete-Time
Linear System Perspective
- Title(参考訳): 時間差学習の有限時間解析:離散時間線形システムの観点から
- Authors: Donghwan Lee and Do Wan Kim
- Abstract要約: TD学習は強化学習(RL)の分野における基礎的アルゴリズムである
最近の研究では、有限時間誤差境界を開発することで、その統計的効率に関する保証を明らかにしている。
- 参考スコア(独自算出の注目度): 3.5823366350053325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: TD-learning is a fundamental algorithm in the field of reinforcement learning
(RL), that is employed to evaluate a given policy by estimating the
corresponding value function for a Markov decision process. While significant
progress has been made in the theoretical analysis of TD-learning, recent
research has uncovered guarantees concerning its statistical efficiency by
developing finite-time error bounds. This paper aims to contribute to the
existing body of knowledge by presenting a novel finite-time analysis of
tabular temporal difference (TD) learning, which makes direct and effective use
of discrete-time stochastic linear system models and leverages Schur matrix
properties. The proposed analysis can cover both on-policy and off-policy
settings in a unified manner. By adopting this approach, we hope to offer new
and straightforward templates that not only shed further light on the analysis
of TD-learning and related RL algorithms but also provide valuable insights for
future research in this domain.
- Abstract(参考訳): TD学習は強化学習(RL)の分野での基本的アルゴリズムであり、マルコフ決定過程の対応する値関数を推定することにより、与えられたポリシーを評価するために用いられる。
td-learningの理論解析において大きな進展が見られたが、近年の研究では有限時間誤差境界の開発による統計効率の保証が明らかにされている。
本稿では,離散時間確率線形系モデルを直接的かつ効果的に利用し,schur行列の特性を活用し,td学習の有限時間解析を提案することにより,既存の知識体系に寄与することを目的とする。
提案する分析は,オン・ポリシーとオフ・ポリシーの両方を統一的にカバーできる。
このアプローチを採用することで、TD学習と関連するRLアルゴリズムの分析にさらなる光を当てるだけでなく、この領域における今後の研究に有用な洞察を提供する、新しくて分かりやすいテンプレートを提供したいと思っています。
関連論文リスト
- Sublinear Regret for An Actor-Critic Algorithm in Continuous-Time Linear-Quadratic Reinforcement Learning [10.404992912881601]
状態過程のボラティリティが状態変数と制御変数に依存する拡散に対する連続時間線形二乗法(LQ)制御問題のクラスに対する強化学習について検討する。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布(d)であると仮定される。
本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。
我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation [5.152147416671501]
本稿では,線形関数近似,オフポリシー学習,ブートストラッピングを特徴とする多段階TD学習アルゴリズムを解析する。
2つのnステップのTD学習アルゴリズムが提案され分析され、このアルゴリズムは勾配と制御理論のモデルなし強化学習とみなすことができる。
論文 参考訳(メタデータ) (2024-02-24T10:42:50Z) - Revisiting the Temporal Modeling in Spatio-Temporal Predictive Learning
under A Unified View [73.73667848619343]
UTEP(Unified S-Temporal Predictive Learning)は,マイクロテンポラリスケールとマクロテンポラリスケールを統合した再帰的および再帰的フリーな手法を再構築する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2023-10-09T16:17:42Z) - The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-28T10:52:46Z) - A Survey on Deep Learning based Time Series Analysis with Frequency
Transformation [74.3919960186696]
周波数変換(FT)は、時系列解析における最先端の精度と効率を高めるために、ディープラーニングモデルにますます取り入れられている。
この新興分野における注目の高まりと研究の高まりにもかかわらず、現在、FTを用いたディープラーニングベースの時系列モデルの体系的レビューと詳細な分析が欠如している。
本稿では,FTを用いた深層学習に基づく時系列解析における最近の研究成果を体系的に研究し,要約する総合的なレビューを紹介する。
論文 参考訳(メタデータ) (2023-02-04T14:33:07Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Latent Properties of Lifelong Learning Systems [59.50307752165016]
本稿では,生涯学習アルゴリズムの潜伏特性を推定するために,アルゴリズムに依存しないサロゲート・モデリング手法を提案する。
合成データを用いた実験により,これらの特性を推定するためのアプローチを検証する。
論文 参考訳(メタデータ) (2022-07-28T20:58:13Z) - Control Theoretic Analysis of Temporal Difference Learning [7.191780076353627]
TD学習は強化学習の領域の基盤となる。
本稿では,TD学習を解析するための有限時間制御理論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T06:43:29Z) - Online Bootstrap Inference For Policy Evaluation in Reinforcement
Learning [90.59143158534849]
近年の強化学習の出現は、頑健な統計的推論手法の需要を生み出している。
オンライン学習における統計的推論の既存の方法は、独立してサンプリングされた観察を含む設定に限られる。
オンラインブートストラップは線形近似アルゴリズムにおける統計的推測のための柔軟で効率的な手法であるが、マルコフノイズを含む設定における有効性はまだ検討されていない。
論文 参考訳(メタデータ) (2021-08-08T18:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。