論文の概要: Finite Sample Analysis of Linear Temporal Difference Learning with Arbitrary Features
- arxiv url: http://arxiv.org/abs/2505.21391v1
- Date: Tue, 27 May 2025 16:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.794466
- Title: Finite Sample Analysis of Linear Temporal Difference Learning with Arbitrary Features
- Title(参考訳): 任意特徴を考慮した線形時間差学習の有限サンプル解析
- Authors: Zixuan Xie, Xinyu Liu, Rohan Chandra, Shangtong Zhang,
- Abstract要約: 本稿では、任意の機能の下で線形TD($lambda$)演算に対する最初の$L2$収束率を確立する。
任意の特徴から生じる解の潜在的非特異性に対処するために、単一点ではなく解集合への収束率を特徴とする新しい近似結果を開発する。
- 参考スコア(独自算出の注目度): 33.19711311247482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear TD($\lambda$) is one of the most fundamental reinforcement learning algorithms for policy evaluation. Previously, convergence rates are typically established under the assumption of linearly independent features, which does not hold in many practical scenarios. This paper instead establishes the first $L^2$ convergence rates for linear TD($\lambda$) operating under arbitrary features, without making any algorithmic modification or additional assumptions. Our results apply to both the discounted and average-reward settings. To address the potential non-uniqueness of solutions resulting from arbitrary features, we develop a novel stochastic approximation result featuring convergence rates to the solution set instead of a single point.
- Abstract(参考訳): 線形TD($\lambda$)はポリシー評価のための最も基本的な強化学習アルゴリズムの1つである。
従来、収束率は通常、線形独立な特徴を仮定して確立され、多くの現実的なシナリオでは成立しない。
代わりに、任意の特徴の下で線形TD($\lambda$) に対して、アルゴリズム的な修正や仮定を加えることなく、最初の$L^2$収束率を確立する。
この結果は、割引設定と平均リワード設定の両方に当てはまる。
任意の特徴から生じる解の潜在的非特異性に対処するため、単一点ではなく解集合への収束率を特徴とする新しい確率近似法を開発した。
関連論文リスト
- Sample Complexity of the Linear Quadratic Regulator: A Reinforcement Learning Lens [11.98212766542468]
我々は,$widetildemathcalO (1/varepsilon)$関数評価において,$varepsilon$-optimalityを達成する最初のアルゴリズムを提供する。
この結果は,2点勾配推定の領域外において,既存の文献を著しく改善する。
論文 参考訳(メタデータ) (2024-04-16T18:54:57Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Tight Nonparametric Convergence Rates for Stochastic Gradient Descent
under the Noiseless Linear Model [0.0]
このモデルに基づく最小二乗リスクに対する1パス, 固定段差勾配勾配の収束度を解析した。
特殊な場合として、ランダムなサンプリング点における値のノイズのない観測から単位区間上の実関数を推定するオンラインアルゴリズムを解析する。
論文 参考訳(メタデータ) (2020-06-15T08:25:50Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。
特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文 参考訳(メタデータ) (2020-02-10T23:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。