Fugu-MT 論文翻訳(概要): Convergence of SARSA with linear function approximation: The random horizon case

論文の概要: Convergence of SARSA with linear function approximation: The random horizon case

arxiv url: http://arxiv.org/abs/2306.04548v1
Date: Wed, 7 Jun 2023 15:51:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-08 13:33:44.670068
Title: Convergence of SARSA with linear function approximation: The random horizon case
Title（参考訳）: 線形関数近似によるsarsaの収束:ランダム地平線の場合
Authors: Lina Palmborg
Abstract要約: SARSAと線形関数近似を組み合わせることで、無限水平方向割引マルコフ決定問題(MDP)に収束することが示されている。無限地平面割引 MDP に対する以前の結果と同様に、挙動ポリシーが線型関数近似の重みベクトルに対して$varepsilon$-soft かつ Lipschitz 連続であるなら、そのアルゴリズムはランダム地平面 MDP を考える際に確率 1 と収束することを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The reinforcement learning algorithm SARSA combined with linear function approximation has been shown to converge for infinite horizon discounted Markov decision problems (MDPs). In this paper, we investigate the convergence of the algorithm for random horizon MDPs, which has not previously been shown. We show, similar to earlier results for infinite horizon discounted MDPs, that if the behaviour policy is $\varepsilon$-soft and Lipschitz continuous with respect to the weight vector of the linear function approximation, with small enough Lipschitz constant, then the algorithm will converge with probability one when considering a random horizon MDP.
Abstract（参考訳）: 線形関数近似と組み合わせた強化学習アルゴリズムSARSAは、無限水平方向割引マルコフ決定問題(MDP)に収束することが示されている。本稿では,これまで示されていないランダムな地平線MDPに対するアルゴリズムの収束性について検討する。無限地平面割引 MDP の以前の結果と同様、挙動ポリシーが線型関数近似の重みベクトルに対して$\varepsilon$-soft および Lipschitz 連続で十分小さいリプシッツ定数を持つ場合、ランダムな地平面 MDP を考えるとアルゴリズムは確率 1 に収束する。

関連論文リスト

Learning Infinite-Horizon Average-Reward Linear Mixture MDPs of Bounded Span [16.49229317664822]
本稿では,無限水平平均逆線形混合マルコフ決定過程(MDPs)を学習するための計算抽出可能なアルゴリズムを提案する。線形混合MDPのアルゴリズムは,$widetildemathcalO(dsqrtmathrmsp(v*)T)$$$T$以上の最小限の後悔上限を実現する。
論文参考訳（メタデータ） (2024-10-19T05:45:50Z)
Imitation Learning in Discounted Linear MDPs without exploration assumptions [58.81226849657474]
ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案する。所望の精度$epsilon$から$mathcalO(epsilon-5)$から$mathcalO(epsilon-4)$への依存を改善する。線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。
論文参考訳（メタデータ） (2024-05-03T15:28:44Z)
Tractable MCMC for Private Learning with Pure and Gaussian Differential Privacy [23.12198546384976]
後方サンプリングは$varepsilon$-pure差分プライバシー保証を提供する。これは、$(varepsilon,delta)$-approximate DPによって引き起こされた潜在的に束縛されていないプライバシー侵害に悩まされない。しかし実際には、マルコフ連鎖モンテカルロのような近似的なサンプリング手法を適用する必要がある。
論文参考訳（メタデータ） (2023-10-23T07:54:39Z)
On the Linear Convergence of Policy Gradient under Hadamard Parameterization [4.182089296199263]
本研究では,アダマールパラメータ化に基づく決定論的政策勾配の収束性について検討する。すべてのイテレーションに対して$O(frac1k)$レートでエラーが減少することを示す。
論文参考訳（メタデータ） (2023-05-31T05:51:15Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Uniform-PAC Bounds for Reinforcement Learning with Linear Function Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文参考訳（メタデータ） (2021-06-22T08:48:56Z)
A stochastic linearized proximal method of multipliers for convex stochastic optimization with expectation constraints [8.133190610747974]
計算可能近似型アルゴリズム,すなわち乗算器の線形化近近凸法を提案する。予備的な数値計算の結果は,提案アルゴリズムの性能を示すものである。
論文参考訳（メタデータ） (2021-06-22T07:24:17Z)
Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文参考訳（メタデータ） (2021-02-27T19:28:39Z)
Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文参考訳（メタデータ） (2021-02-17T18:54:08Z)
ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文参考訳（メタデータ） (2020-08-28T14:46:56Z)
On the Almost Sure Convergence of Stochastic Gradient Descent in Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文参考訳（メタデータ） (2020-06-19T14:11:26Z)
On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文参考訳（メタデータ） (2020-04-09T17:54:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。