論文の概要: A Concentration Bound for TD(0) with Function Approximation
- arxiv url: http://arxiv.org/abs/2312.10424v2
- Date: Wed, 30 Oct 2024 04:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:16.848437
- Title: A Concentration Bound for TD(0) with Function Approximation
- Title(参考訳): 関数近似を用いたTD(0)の濃度境界
- Authors: Siddharth Chandak, Vivek S. Borkar,
- Abstract要約: 私たちは、マルコフ連鎖の1つのサンプルパスからサンプルを採取して、オンラインTD学習に取り組みます。
我々は、TD(0) をマルティンゲールとマルコフの雑音による縮約近似アルゴリズムとして扱う。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We derive a concentration bound of the type `for all $n \geq n_0$ for some $n_0$' for TD(0) with linear function approximation. We work with online TD learning with samples from a single sample path of the underlying Markov chain. This makes our analysis significantly different from offline TD learning or TD learning with access to independent samples from the stationary distribution of the Markov chain. We treat TD(0) as a contractive stochastic approximation algorithm, with both martingale and Markov noises. Markov noise is handled using the Poisson equation and the lack of almost sure guarantees on boundedness of iterates is handled using the concept of relaxed concentration inequalities.
- Abstract(参考訳): すべての$n \geq n_0$ for some $n_0$' for TD(0) with linear function approximation。
私たちは、マルコフ連鎖の1つのサンプルパスからサンプルを採取して、オンラインTD学習に取り組みます。
これにより、マルコフ連鎖の定常分布から独立したサンプルにアクセスすることで、オフラインのTD学習やTD学習とは大きく異なる。
我々は,TD(0) をマルティンゲールとマルコフの両雑音による縮約確率近似アルゴリズムとして扱う。
マルコフノイズはポアソン方程式を用いて処理され、イテレートの有界性に関するほぼ確実な保証の欠如は、緩和された濃度の不等式の概念を用いて処理される。
関連論文リスト
- Almost Sure Convergence Rates and Concentration of Stochastic Approximation and Reinforcement Learning with Markovian Noise [31.241889735283166]
カウントベース学習率を使わずにMarkovianサンプルを用いてQ$-learningの収束率を示す。
また、マルコフサンプルを用いた非政治時間差学習のための第1の集中度も提供する。
論文 参考訳(メタデータ) (2024-11-20T21:09:09Z) - Markov Chain Variance Estimation: A Stochastic Approximation Approach [14.883782513177094]
マルコフ連鎖上で定義される関数の分散を推定する問題は、定常平均の統計的推測の重要なステップである。
我々は,各ステップで$O(1)$を必要とする新しい再帰的推定器を設計し,過去のサンプルやラン長の知識を一切必要とせず,証明可能な有限サンプル保証付き平均二乗誤差(MSE)に対する最適な$O(frac1n)の収束率を有する。
論文 参考訳(メタデータ) (2024-09-09T15:42:28Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Stochastic Gradient Descent under Markovian Sampling Schemes [3.04585143845864]
マルコフ型サンプリングスキームにのみアクセス可能なバニラ勾配勾配の変動について検討する。
我々は、基礎となるマルコフ連鎖で可能な最小限の制限的な仮定の下で収束率を得ることに焦点をあてる。
論文 参考訳(メタデータ) (2023-02-28T09:18:00Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Learning Mixtures of Markov Chains and MDPs [17.11922027966447]
本稿では,マルコフ連鎖 (MCs) とマルコフ決定過程 (オフライン潜在MDPs) をトラジェクトリから学習するためのアルゴリズムを提案する。
実験結果から、EM(平均で95.4%)とGuptaらによる以前の手法(54.1%)の両方を上回り、8x8グリッドワールドで100%の精度が得られることが示唆された。
論文 参考訳(メタデータ) (2022-11-17T08:24:13Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Optimal and instance-dependent guarantees for Markovian linear stochastic approximation [47.912511426974376]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z) - Concentration of Contractive Stochastic Approximation and Reinforcement
Learning [0.6015898117103068]
マルティンゲール濃度の不等式を用いて、縮尺写像とマルティンゲール差とマルコフ雑音との近似アルゴリズムに濃度境界を導出した。
これらは強化学習アルゴリズム、特に非同期Q-ラーニングやTD(0)に適用される。
論文 参考訳(メタデータ) (2021-06-27T18:34:21Z) - Reanalysis of Variance Reduced Temporal Difference Learning [57.150444843282]
Korda と La が提案した分散還元型TD (VRTD) アルゴリズムは,マルコフサンプルを用いたオンラインTD学習に直接適用する。
我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。