Fugu-MT 論文翻訳(概要): A Finite-Time Analysis of TD Learning with Linear Function Approximation without Projections nor Strong Convexity

論文の概要: A Finite-Time Analysis of TD Learning with Linear Function Approximation without Projections nor Strong Convexity

arxiv url: http://arxiv.org/abs/2506.01052v1
Date: Sun, 01 Jun 2025 15:39:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 01:42:09.247731
Title: A Finite-Time Analysis of TD Learning with Linear Function Approximation without Projections nor Strong Convexity
Title（参考訳）: 投影や強い凸性のない線形関数近似を用いたTD学習の有限時間解析
Authors: Wei-Cheng Lee, Francesco Orabona,
Abstract要約: 線形関数近似を用いた時間差分学習(TD)の有限時間収束特性について検討する。単純な射影自由多様体は、マルコフノイズの存在下でさえ$tildemath||theta*||2sqrtT$の速度で収束することを示す。
参考スコア（独自算出の注目度）: 11.117572650083698
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the finite-time convergence properties of Temporal Difference (TD) learning with linear function approximation, a cornerstone algorithm in reinforcement learning. While prior work has established convergence guarantees, these results typically rely on the assumption that each iterate is projected onto a bounded set or that the learning rate is set according to the unknown strong convexity constant -- conditions that are both artificial and do not match the current practice. In this paper, we challenge the necessity of such assumptions and present a refined analysis of TD learning. We show that the simple projection-free variant converges with a rate of $\tilde{\mathcal{O}}(\frac{||\theta^*||^2_2}{\sqrt{T}})$, even in the presence of Markovian noise. Our analysis reveals a novel self-bounding property of the TD updates and exploits it to guarantee bounded iterates.
Abstract（参考訳）: 線形関数近似を用いた時間差分学習(TD)の有限時間収束特性について検討する。事前の作業では収束保証が確立されているが、これらの結果は一般的に、各イテレーションが有界集合に投影されている、あるいは未知の強い凸定数に従って学習率が設定されているという仮定に依存している。本稿では,このような仮定の必要性に挑戦し,TD学習の洗練された分析方法を提案する。単純な射影自由多様体は、マルコフノイズの存在下でさえ、$\tilde{\mathcal{O}}(\frac{||\theta^*||^2_2}{\sqrt{T}})$の速度で収束することを示す。我々の分析では,TD更新の新たな自己バウンド特性を明らかにし,それを有効活用して,有界反復を保証する。

関連論文リスト

DS FedProxGrad: Asymptotic Stationarity Without Noise Floor in Fair Federated Learning [0.0]
我々は,不正確な局所解と明示的正則化をともなうFederated textttFedProxGrad型解析フレームワークの収束解析を改良した。
論文参考訳（メタデータ） (2025-12-09T14:55:21Z)
Finite Sample Analysis of Linear Temporal Difference Learning with Arbitrary Features [21.241323360100548]
本稿では、任意の機能の下で線形TD($lambda$)演算に対する最初の$L2$収束率を確立する。任意の特徴から生じる解の潜在的非特異性に対処するために、単一点ではなく解集合への収束率を特徴とする新しい近似結果を開発する。
論文参考訳（メタデータ） (2025-05-27T16:17:49Z)
Convergence of TD(0) under Polynomial Mixing with Nonlinear Function Approximation [49.1574468325115]
時間差分学習(TD(0))は強化学習の基本である。マルコフデータを混合したバニラTD(0)の最初の高確率有限サンプル解析を行う。
論文参考訳（メタデータ） (2025-02-08T22:01:02Z)
Stochastic Approximation with Unbounded Markovian Noise: A General-Purpose Theorem [7.443139252028032]
非有界な状態空間と報酬関数を持つ平均逆強化学習を考える。近年の研究では、この問題をアクター批判の枠組みで研究している。線形関数近似を用いた時間差分学習(TD)について検討した。
論文参考訳（メタデータ） (2024-10-29T03:40:53Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。現在の最先端の成果を改善するために,3つの重要なコントリビューションを行います。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Almost Sure Convergence of Linear Temporal Difference Learning with Arbitrary Features [18.326126953667842]
この研究は、線形独立な特徴を必要とせず、線形TDのほぼ確実に収束を確立する最初のものである。解析の鍵となるのは、線形TDの平均ODEの有界不変集合の新たな特徴付けである。
論文参考訳（メタデータ） (2024-09-18T16:59:17Z)
A Simple Finite-Time Analysis of TD Learning with Linear Function Approximation [2.44755919161855]
マルコフサンプリングの下で線形関数近似を用いたTD学習の有限時間収束について検討する。提案アルゴリズムでは,プロジェクションステップを実際に実行することなく,プロジェクションに基づく解析の単純さを維持することができることを示す。
論文参考訳（メタデータ） (2024-03-04T20:40:02Z)
Uniform-in-Time Wasserstein Stability Bounds for (Noisy) Stochastic Gradient Descent [30.84181129503133]
この10年で、異なる損失関数に適用された異なるアルゴリズムに対する安定性の増大が見られた。本稿では,最適化アルゴリズムの安定性を証明するための統一的なガイドラインを導入する。私たちのアプローチは柔軟で、他の一般的な学習クラスにも容易に適用できます。
論文参考訳（メタデータ） (2023-05-20T01:49:58Z)
Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文参考訳（メタデータ） (2023-04-04T04:32:29Z)
High-Probability Bounds for Stochastic Optimization and Variational Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文参考訳（メタデータ） (2023-02-02T10:37:23Z)
Kernel-based off-policy estimation without overlap: Instance optimality beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文参考訳（メタデータ） (2023-01-16T02:57:37Z)
An Analysis of Quantile Temporal-Difference Learning [53.36758478669685]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文参考訳（メタデータ） (2023-01-11T13:41:56Z)
Finite time analysis of temporal difference learning with linear function approximation: Tail averaging and regularisation [44.27439128304058]
そこで本研究では,TD学習アルゴリズムの時間的有限性について検討した。ステップサイズ選択の下で、テール平均TDのパラメータ誤差に基づいて有限時間境界を導出する。
論文参考訳（メタデータ） (2022-10-12T04:37:54Z)
Contrastive learning of strong-mixing continuous-time stochastic processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。拡散の場合,小～中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文参考訳（メタデータ） (2021-03-03T23:06:47Z)
Simple and optimal methods for stochastic variational inequalities, II: Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文参考訳（メタデータ） (2020-11-15T04:05:22Z)
Learning Implicitly with Noisy Data in Linear Arithmetic [94.66549436482306]
PAC-セマンティックスにおける暗黙学習を拡張し、線形算術の言語における間隔としきい値の不確実性を扱う。最適線形プログラミング対象制約の学習に対する我々の暗黙的アプローチは、実際的な明示的アプローチよりも著しく優れていることを示す。
論文参考訳（メタデータ） (2020-10-23T19:08:46Z)
Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文参考訳（メタデータ） (2020-09-29T18:48:21Z)
Stochastic Approximation with Markov Noise: Analysis and applications in reinforcement learning [0.0]
マルコフ雑音によって駆動される2つの時間スケール近似の収束解析を初めて提示する。両方の時間スケールにおける差分包摂を限定することで、フレームワークの挙動を分析する。ポリシ評価アルゴリズムの関数近似における最初の情報的誤差境界を求める。
論文参考訳（メタデータ） (2020-04-08T03:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。