論文の概要: Analysis of Temporal Difference Learning: Linear System Approach
- arxiv url: http://arxiv.org/abs/2204.10479v2
- Date: Tue, 26 Apr 2022 09:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 10:23:55.933661
- Title: Analysis of Temporal Difference Learning: Linear System Approach
- Title(参考訳): 時間差学習の解析:線形システムアプローチ
- Authors: Donghwan Lee and Do Wan Kim
- Abstract要約: 線形システムモデルに基づく時間差学習(TD)の新しい有限時間解析を導入する。
TD学習は、マルコフ決定過程の対応する値関数を推定することにより、所定のポリシーを評価するための基本的な強化学習(RL)である。
- 参考スコア(独自算出の注目度): 3.5823366350053325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this technical note is to introduce a new finite-time convergence
analysis of temporal difference (TD) learning based on stochastic linear system
models. TD-learning is a fundamental reinforcement learning (RL) to evaluate a
given policy by estimating the corresponding value function for a Markov
decision process. While there has been a series of successful works in
theoretical analysis of TDlearning, it was not until recently that researchers
found some guarantees on its statistical efficiency by developing finite-time
error bounds. In this paper, we propose a simple control theoretic finite-time
analysis of TD-learning, which exploits linear system models and standard
notions in linear system communities. The proposed work provides new simple
templets for RL analysis, and additional insights on TD-learning and RL based
on ideas in control theory.
- Abstract(参考訳): 本技術の目的は,確率線形系モデルに基づく時間差分学習(TD)の新しい有限時間収束解析を導入することである。
TD学習は、マルコフ決定過程の対応する値関数を推定することにより、所定のポリシーを評価するための基本的な強化学習(RL)である。
tdラーニングの理論解析に成功している研究はいくつかあるが、研究者たちが有限時間誤差境界の開発による統計効率の保証を発見したのは近年になってからである。
本稿では,線形システムモデルと線形システムコミュニティにおける標準概念を利用したTD学習の簡易制御理論有限時間解析を提案する。
提案した研究は、RL解析のための新しいシンプルなアレントを提供し、制御理論のアイデアに基づくTD学習とRLに関するさらなる洞察を提供する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布(d)であると仮定される。
本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。
我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation [5.152147416671501]
本稿では,線形関数近似,オフポリシー学習,ブートストラッピングを特徴とする多段階TD学習アルゴリズムを解析する。
2つのnステップのTD学習アルゴリズムが提案され分析され、このアルゴリズムは勾配と制御理論のモデルなし強化学習とみなすことができる。
論文 参考訳(メタデータ) (2024-02-24T10:42:50Z) - Revisiting the Temporal Modeling in Spatio-Temporal Predictive Learning
under A Unified View [73.73667848619343]
UTEP(Unified S-Temporal Predictive Learning)は,マイクロテンポラリスケールとマクロテンポラリスケールを統合した再帰的および再帰的フリーな手法を再構築する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2023-10-09T16:17:42Z) - Uncertainty quantification for learned ISTA [5.706217259840463]
これらのモデルに基づく学習手法では,アルゴリズムの解法が顕著である。
確実性見積が欠如しており、不確実性定量化の理論はまだ解明されていない。
本研究は,LISTA推定器の信頼区間を得るための厳密な手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T18:39:07Z) - The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-28T10:52:46Z) - A Survey on Deep Learning based Time Series Analysis with Frequency
Transformation [74.3919960186696]
周波数変換(FT)は、時系列解析における最先端の精度と効率を高めるために、ディープラーニングモデルにますます取り入れられている。
この新興分野における注目の高まりと研究の高まりにもかかわらず、現在、FTを用いたディープラーニングベースの時系列モデルの体系的レビューと詳細な分析が欠如している。
本稿では,FTを用いた深層学習に基づく時系列解析における最近の研究成果を体系的に研究し,要約する総合的なレビューを紹介する。
論文 参考訳(メタデータ) (2023-02-04T14:33:07Z) - Latent Properties of Lifelong Learning Systems [59.50307752165016]
本稿では,生涯学習アルゴリズムの潜伏特性を推定するために,アルゴリズムに依存しないサロゲート・モデリング手法を提案する。
合成データを用いた実験により,これらの特性を推定するためのアプローチを検証する。
論文 参考訳(メタデータ) (2022-07-28T20:58:13Z) - Control Theoretic Analysis of Temporal Difference Learning [7.191780076353627]
TD学習は強化学習の領域の基盤となる。
本稿では,TD学習を解析するための有限時間制御理論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T06:43:29Z) - Online Bootstrap Inference For Policy Evaluation in Reinforcement
Learning [90.59143158534849]
近年の強化学習の出現は、頑健な統計的推論手法の需要を生み出している。
オンライン学習における統計的推論の既存の方法は、独立してサンプリングされた観察を含む設定に限られる。
オンラインブートストラップは線形近似アルゴリズムにおける統計的推測のための柔軟で効率的な手法であるが、マルコフノイズを含む設定における有効性はまだ検討されていない。
論文 参考訳(メタデータ) (2021-08-08T18:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。