論文の概要: A Finite-Time Analysis of TD Learning with Linear Function Approximation without Projections or Strong Convexity
- arxiv url: http://arxiv.org/abs/2506.01052v2
- Date: Thu, 25 Sep 2025 10:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:55.86364
- Title: A Finite-Time Analysis of TD Learning with Linear Function Approximation without Projections or Strong Convexity
- Title(参考訳): 投影や強凸のない線形関数近似を用いたTD学習の有限時間解析
- Authors: Wei-Cheng Lee, Francesco Orabona,
- Abstract要約: 線形関数近似を用いた時間差分学習(TD)の有限時間収束特性について検討する。
単純な射影自由多様体は、マルコフノイズの存在下でさえ$widetildemathcalO(frac||theta)$の速度で収束することを示す。
- 参考スコア(独自算出の注目度): 11.513419525702924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the finite-time convergence properties of Temporal Difference (TD) learning with linear function approximation, a cornerstone algorithm in the field of reinforcement learning. We are interested in the so-called ``robust'' setting, where the convergence guarantee does not depend on the minimal curvature of the potential function. While prior work has established convergence guarantees in this setting, these results typically rely on the assumption that each iterate is projected onto a bounded set, a condition that is both artificial and does not match the current practice. In this paper, we challenge the necessity of such an assumption and present a refined analysis of TD learning. For the first time, we show that the simple projection-free variant converges with a rate of $\widetilde{\mathcal{O}}(\frac{||\theta^*||^2_2}{\sqrt{T}})$, even in the presence of Markovian noise. Our analysis reveals a novel self-bounding property of the TD updates and exploits it to guarantee bounded iterates.
- Abstract(参考訳): 線形関数近似を用いた時間差分学習(TD)の有限時間収束特性について検討する。
我々はいわゆる ‘robust' の設定に興味を持ち、収束保証はポテンシャル関数の最小曲率に依存しない。
以前の研究は、この設定において収束保証を確立しているが、これらの結果は典型的には、それぞれの反復が有界集合に射影されるという仮定に依存し、これはどちらも人工的であり、現在の慣行と一致しない条件である。
本稿では,このような仮定の必要性に挑戦し,TD学習の洗練された分析方法を提案する。
初めて、単純な射影自由多様体はマルコフノイズの存在下、$\widetilde{\mathcal{O}}(\frac{|\theta^*||^2_2}{\sqrt{T}})$と収束することを示した。
我々の分析では,TD更新の新たな自己バウンド特性を明らかにし,それを有効活用して,有界反復を保証する。
関連論文リスト
- Stochastic Approximation with Unbounded Markovian Noise: A General-Purpose Theorem [7.443139252028032]
非有界な状態空間と報酬関数を持つ平均逆強化学習を考える。
近年の研究では、この問題をアクター批判の枠組みで研究している。
線形関数近似を用いた時間差分学習(TD)について検討した。
論文 参考訳(メタデータ) (2024-10-29T03:40:53Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
現在の最先端の成果を改善するために,3つの重要なコントリビューションを行います。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - A Simple Finite-Time Analysis of TD Learning with Linear Function Approximation [2.44755919161855]
マルコフサンプリングの下で線形関数近似を用いたTD学習の有限時間収束について検討する。
提案アルゴリズムでは,プロジェクションステップを実際に実行することなく,プロジェクションに基づく解析の単純さを維持することができることを示す。
論文 参考訳(メタデータ) (2024-03-04T20:40:02Z) - Uniform-in-Time Wasserstein Stability Bounds for (Noisy) Stochastic
Gradient Descent [30.84181129503133]
この10年で、異なる損失関数に適用された異なるアルゴリズムに対する安定性の増大が見られた。
本稿では,最適化アルゴリズムの安定性を証明するための統一的なガイドラインを導入する。
私たちのアプローチは柔軟で、他の一般的な学習クラスにも容易に適用できます。
論文 参考訳(メタデータ) (2023-05-20T01:49:58Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - An Analysis of Quantile Temporal-Difference Learning [53.36758478669685]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文 参考訳(メタデータ) (2023-01-11T13:41:56Z) - Finite time analysis of temporal difference learning with linear
function approximation: Tail averaging and regularisation [44.27439128304058]
そこで本研究では,TD学習アルゴリズムの時間的有限性について検討した。
ステップサイズ選択の下で、テール平均TDのパラメータ誤差に基づいて有限時間境界を導出する。
論文 参考訳(メタデータ) (2022-10-12T04:37:54Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - Simple and optimal methods for stochastic variational inequalities, II:
Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。
我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文 参考訳(メタデータ) (2020-11-15T04:05:22Z) - Learning Implicitly with Noisy Data in Linear Arithmetic [94.66549436482306]
PAC-セマンティックスにおける暗黙学習を拡張し、線形算術の言語における間隔としきい値の不確実性を扱う。
最適線形プログラミング対象制約の学習に対する我々の暗黙的アプローチは、実際的な明示的アプローチよりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2020-10-23T19:08:46Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Stochastic Approximation with Markov Noise: Analysis and applications in
reinforcement learning [0.0]
マルコフ雑音によって駆動される2つの時間スケール近似の収束解析を初めて提示する。
両方の時間スケールにおける差分包摂を限定することで、フレームワークの挙動を分析する。
ポリシ評価アルゴリズムの関数近似における最初の情報的誤差境界を求める。
論文 参考訳(メタデータ) (2020-04-08T03:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。