論文の概要: Analysis of Off-Policy $n$-Step TD-Learning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2502.08941v1
- Date: Thu, 13 Feb 2025 03:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:51.317129
- Title: Analysis of Off-Policy $n$-Step TD-Learning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いたオフポリティ$n$-Step TD学習の解析
- Authors: Han-Dong Lim, Donghwan Lee,
- Abstract要約: 本稿では,致命的な三者シナリオにおける多段階時間差(TD)学習アルゴリズムについて分析する。
特に、サンプリング地平線$n$が十分に増加するにつれて、$n$ステップのTD学習アルゴリズムが解に収束することが証明される。
2つの$n$のTD-learningアルゴリズムが提案され分析され、モデルに基づく決定論的アルゴリズムのモデルフリー強化学習とみなすことができる。
- 参考スコア(独自算出の注目度): 6.663174194579773
- License:
- Abstract: This paper analyzes multi-step temporal difference (TD)-learning algorithms within the ``deadly triad'' scenario, characterized by linear function approximation, off-policy learning, and bootstrapping. In particular, we prove that $n$-step TD-learning algorithms converge to a solution as the sampling horizon $n$ increases sufficiently. The paper is divided into two parts. In the first part, we comprehensively examine the fundamental properties of their model-based deterministic counterparts, including projected value iteration, gradient descent algorithms, which can be viewed as prototype deterministic algorithms whose analysis plays a pivotal role in understanding and developing their model-free reinforcement learning counterparts. In particular, we prove that these algorithms converge to meaningful solutions when $n$ is sufficiently large. Based on these findings, in the second part, two $n$-step TD-learning algorithms are proposed and analyzed, which can be seen as the model-free reinforcement learning counterparts of the model-based deterministic algorithms.
- Abstract(参考訳): 本稿では, 線形関数近似, オフ政治学習, ブートストラップを特徴とする, 多段階の時間差(TD)学習アルゴリズムを 'Deadly triad' シナリオで解析する。
特に、サンプリング地平線$n$が十分に増加するにつれて、$n$ステップのTD学習アルゴリズムが解に収束することが証明される。
その紙は2つに分かれている。
第一部では, モデルに基づく決定論的アルゴリズムの基本的特性を網羅的に検討し, 予測値反復, 勾配降下アルゴリズム, モデルフリー強化学習アルゴリズムの理解・開発において, 分析が重要な役割を担う原型決定論的アルゴリズムとみなすことができる。
特に、$n$が十分大きいとき、これらのアルゴリズムが有意義な解に収束することが証明される。
これらの結果に基づき、第2部では、モデルに基づく決定論的アルゴリズムのモデルフリー強化学習として、2つのn$ステップのTD学習アルゴリズムが提案され、分析されている。
関連論文リスト
- Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation [5.152147416671501]
本稿では,線形関数近似,オフポリシー学習,ブートストラッピングを特徴とする多段階TD学習アルゴリズムを解析する。
2つのnステップのTD学習アルゴリズムが提案され分析され、このアルゴリズムは勾配と制御理論のモデルなし強化学習とみなすことができる。
論文 参考訳(メタデータ) (2024-02-24T10:42:50Z) - Limited Memory Online Gradient Descent for Kernelized Pairwise Learning
with Dynamic Averaging [18.843097436906618]
実例の独立性を必要としない軽量なOGDアルゴリズムを導入し、カーネル対学習に一般化する。
提案アルゴリズムは,ランダムな例と過去のデータを表す移動平均に基づいて勾配を構築し,その結果,O(T)$の複雑さに縛られたサブ線形後悔が生じる。
実世界のデータセットによるいくつかの実験では、複雑性技術がオフラインおよびオンラインシナリオでカーネルと線形勾配を上回ることが示されている。
論文 参考訳(メタデータ) (2024-02-02T05:21:50Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Algorithms to estimate Shapley value feature attributions [11.527421282223948]
Shapley値に基づく特徴属性は、機械学習モデルを説明するために人気がある。
我々は,この複雑さを,(1)特徴情報の除去アプローチ,(2)抽出可能な推定戦略の2つの要因に分解する。
論文 参考訳(メタデータ) (2022-07-15T17:04:41Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Learning-to-learn non-convex piecewise-Lipschitz functions [44.6133187924678]
両機械学習アルゴリズムに適用可能な非タスクであるピースワイズ・リプシッツ関数に対するアルゴリズムのメタラーニングを分析する。
複数のオンライン学習タスクからアルゴリズムのステップサイズの両方を学習する実用的なメタ学習手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T16:22:48Z) - Finite-Sample Analysis of Proximal Gradient TD Algorithms [43.035055641190105]
アルゴリズムの勾配時間差分学習(GTD)ファミリーの収束速度を解析する。
また、GTD2とGTD2-MPという2つの修正アルゴリズムも提案されている。
理論解析の結果,GTDファミリーのアルゴリズムは,非政治的な学習シナリオにおける既存のLSTD手法と同等であることがわかった。
論文 参考訳(メタデータ) (2020-06-06T20:16:25Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z) - Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning [63.64636047748605]
一般的なマルチステップMAMLアルゴリズムに対して収束保証を提供するための新しい理論フレームワークを開発する。
特に,本研究の結果は,収束を保証するためには,内部段階のステップを逆比例して$N$の内段ステップを選択する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T19:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。