論文の概要: A Finite-Time Analysis of TD Learning with Linear Function Approximation without Projections nor Strong Convexity
- arxiv url: http://arxiv.org/abs/2506.01052v1
- Date: Sun, 01 Jun 2025 15:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.247731
- Title: A Finite-Time Analysis of TD Learning with Linear Function Approximation without Projections nor Strong Convexity
- Title(参考訳): 投影や強い凸性のない線形関数近似を用いたTD学習の有限時間解析
- Authors: Wei-Cheng Lee, Francesco Orabona,
- Abstract要約: 線形関数近似を用いた時間差分学習(TD)の有限時間収束特性について検討する。
単純な射影自由多様体は、マルコフノイズの存在下でさえ$tildemath||theta*||2sqrtT$の速度で収束することを示す。
- 参考スコア(独自算出の注目度): 11.117572650083698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the finite-time convergence properties of Temporal Difference (TD) learning with linear function approximation, a cornerstone algorithm in reinforcement learning. While prior work has established convergence guarantees, these results typically rely on the assumption that each iterate is projected onto a bounded set or that the learning rate is set according to the unknown strong convexity constant -- conditions that are both artificial and do not match the current practice. In this paper, we challenge the necessity of such assumptions and present a refined analysis of TD learning. We show that the simple projection-free variant converges with a rate of $\tilde{\mathcal{O}}(\frac{||\theta^*||^2_2}{\sqrt{T}})$, even in the presence of Markovian noise. Our analysis reveals a novel self-bounding property of the TD updates and exploits it to guarantee bounded iterates.
- Abstract(参考訳): 線形関数近似を用いた時間差分学習(TD)の有限時間収束特性について検討する。
事前の作業では収束保証が確立されているが、これらの結果は一般的に、各イテレーションが有界集合に投影されている、あるいは未知の強い凸定数に従って学習率が設定されているという仮定に依存している。
本稿では,このような仮定の必要性に挑戦し,TD学習の洗練された分析方法を提案する。
単純な射影自由多様体は、マルコフノイズの存在下でさえ、$\tilde{\mathcal{O}}(\frac{||\theta^*||^2_2}{\sqrt{T}})$の速度で収束することを示す。
我々の分析では,TD更新の新たな自己バウンド特性を明らかにし,それを有効活用して,有界反復を保証する。
関連論文リスト
- Stochastic Approximation with Unbounded Markovian Noise: A General-Purpose Theorem [7.443139252028032]
非有界な状態空間と報酬関数を持つ平均逆強化学習を考える。
近年の研究では、この問題をアクター批判の枠組みで研究している。
線形関数近似を用いた時間差分学習(TD)について検討した。
論文 参考訳(メタデータ) (2024-10-29T03:40:53Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
現在の最先端の成果を改善するために,3つの重要なコントリビューションを行います。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - A Simple Finite-Time Analysis of TD Learning with Linear Function Approximation [2.44755919161855]
マルコフサンプリングの下で線形関数近似を用いたTD学習の有限時間収束について検討する。
提案アルゴリズムでは,プロジェクションステップを実際に実行することなく,プロジェクションに基づく解析の単純さを維持することができることを示す。
論文 参考訳(メタデータ) (2024-03-04T20:40:02Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Finite time analysis of temporal difference learning with linear
function approximation: Tail averaging and regularisation [44.27439128304058]
そこで本研究では,TD学習アルゴリズムの時間的有限性について検討した。
ステップサイズ選択の下で、テール平均TDのパラメータ誤差に基づいて有限時間境界を導出する。
論文 参考訳(メタデータ) (2022-10-12T04:37:54Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - Simple and optimal methods for stochastic variational inequalities, II:
Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。
我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文 参考訳(メタデータ) (2020-11-15T04:05:22Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Stochastic Approximation with Markov Noise: Analysis and applications in
reinforcement learning [0.0]
マルコフ雑音によって駆動される2つの時間スケール近似の収束解析を初めて提示する。
両方の時間スケールにおける差分包摂を限定することで、フレームワークの挙動を分析する。
ポリシ評価アルゴリズムの関数近似における最初の情報的誤差境界を求める。
論文 参考訳(メタデータ) (2020-04-08T03:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。