論文の概要: Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2402.15781v2
- Date: Mon, 8 Apr 2024 17:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 00:56:58.650836
- Title: Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いたオフライン多段階TD学習の解析
- Authors: Donghwan Lee,
- Abstract要約: 本稿では,線形関数近似,オフポリシー学習,ブートストラッピングを特徴とする多段階TD学習アルゴリズムを解析する。
2つのnステップのTD学習アルゴリズムが提案され分析され、このアルゴリズムは勾配と制御理論のモデルなし強化学習とみなすことができる。
- 参考スコア(独自算出の注目度): 5.152147416671501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper analyzes multi-step TD-learning algorithms within the `deadly triad' scenario, characterized by linear function approximation, off-policy learning, and bootstrapping. In particular, we prove that n-step TD-learning algorithms converge to a solution as the sampling horizon n increases sufficiently. The paper is divided into two parts. In the first part, we comprehensively examine the fundamental properties of their model-based deterministic counterparts, including projected value iteration, gradient descent algorithms, and the control theoretic approach, which can be viewed as prototype deterministic algorithms whose analysis plays a pivotal role in understanding and developing their model-free reinforcement learning counterparts. In particular, we prove that these algorithms converge to meaningful solutions when n is sufficiently large. Based on these findings, two n-step TD-learning algorithms are proposed and analyzed, which can be seen as the model-free reinforcement learning counterparts of the gradient and control theoretic algorithms.
- Abstract(参考訳): 本稿では, 線形関数近似, オフ政治学習, ブートストラップを特徴とする, 多段階のTD学習アルゴリズムを 'deadly triad' シナリオで解析する。
特に,n段階のTD学習アルゴリズムが,サンプリング地平線nが十分に増加するにつれて解に収束することを証明する。
その紙は2つに分かれている。
第一部では、予測値反復、勾配降下アルゴリズム、制御理論アプローチなど、モデルに基づく決定論的アルゴリズムの基本的特性を総合的に検討し、モデルフリー強化学習アルゴリズムの理解と開発において重要な役割を担っている原型決定論的アルゴリズムとみなすことができる。
特に、これらのアルゴリズムが n が十分に大きいときに有意義な解に収束することが証明される。
これらの結果に基づき、2つのn段階のTD学習アルゴリズムが提案され分析され、このアルゴリズムは勾配と制御理論のモデルなし強化学習アルゴリズムと見なすことができる。
関連論文リスト
- Deep Unrolling for Nonconvex Robust Principal Component Analysis [75.32013242448151]
我々はロバスト成分分析のためのアルゴリズムを設計する(A)
行列を低主行列とスパース主行列の和に分解する。
論文 参考訳(メタデータ) (2023-07-12T03:48:26Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Reinforcement Learning with Unbiased Policy Evaluation and Linear
Function Approximation [11.345796608258434]
マルコフ決定プロセスを制御するためのシミュレーションベースのポリシーイテレーションの変種に対して,性能保証を提供する。
第一のアルゴリズムは最小二乗アプローチを伴い、各反復において、特徴ベクトルに関連する新しい重みの集合が少なくとも二乗によって得られる。
第2のアルゴリズムは、最小二乗解への勾配降下を数ステップ行う2段階の近似アルゴリズムを含む。
論文 参考訳(メタデータ) (2022-10-13T20:16:19Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Learning-to-learn non-convex piecewise-Lipschitz functions [44.6133187924678]
両機械学習アルゴリズムに適用可能な非タスクであるピースワイズ・リプシッツ関数に対するアルゴリズムのメタラーニングを分析する。
複数のオンライン学習タスクからアルゴリズムのステップサイズの両方を学習する実用的なメタ学習手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T16:22:48Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z) - Finite-Sample Analysis of Proximal Gradient TD Algorithms [43.035055641190105]
アルゴリズムの勾配時間差分学習(GTD)ファミリーの収束速度を解析する。
また、GTD2とGTD2-MPという2つの修正アルゴリズムも提案されている。
理論解析の結果,GTDファミリーのアルゴリズムは,非政治的な学習シナリオにおける既存のLSTD手法と同等であることがわかった。
論文 参考訳(メタデータ) (2020-06-06T20:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。