論文の概要: Convergence of SARSA with linear function approximation: The random
horizon case
- arxiv url: http://arxiv.org/abs/2306.04548v1
- Date: Wed, 7 Jun 2023 15:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:33:44.670068
- Title: Convergence of SARSA with linear function approximation: The random
horizon case
- Title(参考訳): 線形関数近似によるsarsaの収束:ランダム地平線の場合
- Authors: Lina Palmborg
- Abstract要約: SARSAと線形関数近似を組み合わせることで、無限水平方向割引マルコフ決定問題(MDP)に収束することが示されている。
無限地平面割引 MDP に対する以前の結果と同様に、挙動ポリシーが線型関数近似の重みベクトルに対して$varepsilon$-soft かつ Lipschitz 連続であるなら、そのアルゴリズムはランダム地平面 MDP を考える際に確率 1 と収束することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reinforcement learning algorithm SARSA combined with linear function
approximation has been shown to converge for infinite horizon discounted Markov
decision problems (MDPs). In this paper, we investigate the convergence of the
algorithm for random horizon MDPs, which has not previously been shown. We
show, similar to earlier results for infinite horizon discounted MDPs, that if
the behaviour policy is $\varepsilon$-soft and Lipschitz continuous with
respect to the weight vector of the linear function approximation, with small
enough Lipschitz constant, then the algorithm will converge with probability
one when considering a random horizon MDP.
- Abstract(参考訳): 線形関数近似と組み合わせた強化学習アルゴリズムSARSAは、無限水平方向割引マルコフ決定問題(MDP)に収束することが示されている。
本稿では,これまで示されていないランダムな地平線MDPに対するアルゴリズムの収束性について検討する。
無限地平面割引 MDP の以前の結果と同様、挙動ポリシーが線型関数近似の重みベクトルに対して$\varepsilon$-soft および Lipschitz 連続で十分小さいリプシッツ定数を持つ場合、ランダムな地平面 MDP を考えるとアルゴリズムは確率 1 に収束する。
関連論文リスト
- Learning Infinite-Horizon Average-Reward Linear Mixture MDPs of Bounded Span [16.49229317664822]
本稿では,無限水平平均逆線形混合マルコフ決定過程(MDPs)を学習するための計算抽出可能なアルゴリズムを提案する。
線形混合MDPのアルゴリズムは,$widetildemathcalO(dsqrtmathrmsp(v*)T)$$$T$以上の最小限の後悔上限を実現する。
論文 参考訳(メタデータ) (2024-10-19T05:45:50Z) - Imitation Learning in Discounted Linear MDPs without exploration assumptions [58.81226849657474]
ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案する。
所望の精度$epsilon$から$mathcalO(epsilon-5)$から$mathcalO(epsilon-4)$への依存を改善する。
線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-03T15:28:44Z) - Tractable MCMC for Private Learning with Pure and Gaussian Differential Privacy [23.12198546384976]
後方サンプリングは$varepsilon$-pure差分プライバシー保証を提供する。
これは、$(varepsilon,delta)$-approximate DPによって引き起こされた潜在的に束縛されていないプライバシー侵害に悩まされない。
しかし実際には、マルコフ連鎖モンテカルロのような近似的なサンプリング手法を適用する必要がある。
論文 参考訳(メタデータ) (2023-10-23T07:54:39Z) - On the Linear Convergence of Policy Gradient under Hadamard
Parameterization [4.182089296199263]
本研究では,アダマールパラメータ化に基づく決定論的政策勾配の収束性について検討する。
すべてのイテレーションに対して$O(frac1k)$レートでエラーが減少することを示す。
論文 参考訳(メタデータ) (2023-05-31T05:51:15Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - A stochastic linearized proximal method of multipliers for convex
stochastic optimization with expectation constraints [8.133190610747974]
計算可能近似型アルゴリズム,すなわち乗算器の線形化近近凸法を提案する。
予備的な数値計算の結果は,提案アルゴリズムの性能を示すものである。
論文 参考訳(メタデータ) (2021-06-22T07:24:17Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。