論文の概要: On Convergence of Gradient Expected Sarsa($\lambda$)
- arxiv url: http://arxiv.org/abs/2012.07199v1
- Date: Mon, 14 Dec 2020 01:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 11:08:56.211579
- Title: On Convergence of Gradient Expected Sarsa($\lambda$)
- Title(参考訳): 勾配予測サーサ($\lambda$)の収束性について
- Authors: Long Yang, Gang Zheng, Yu Zhang, Qian Zheng, Pengfei Li, Gang Pan
- Abstract要約: オフライン推定(マルチステップブートストラップ)を$mathttexpectedsarsa(lambda)$に適用することはオフポリシ学習において不安定であることを示す。
収束する$mathttgradientexpectedsarsa(lambda)$ ($mathttges(lambda)$)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.983112169543375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the convergence of $\mathtt{Expected~Sarsa}(\lambda)$ with linear
function approximation. We show that applying the off-line estimate (multi-step
bootstrapping) to $\mathtt{Expected~Sarsa}(\lambda)$ is unstable for off-policy
learning. Furthermore, based on convex-concave saddle-point framework, we
propose a convergent $\mathtt{Gradient~Expected~Sarsa}(\lambda)$
($\mathtt{GES}(\lambda)$) algorithm. The theoretical analysis shows that our
$\mathtt{GES}(\lambda)$ converges to the optimal solution at a linear
convergence rate, which is comparable to extensive existing state-of-the-art
gradient temporal difference learning algorithms. Furthermore, we develop a
Lyapunov function technique to investigate how the step-size influences
finite-time performance of $\mathtt{GES}(\lambda)$, such technique of Lyapunov
function can be potentially generalized to other GTD algorithms. Finally, we
conduct experiments to verify the effectiveness of our $\mathtt{GES}(\lambda)$.
- Abstract(参考訳): 線形関数近似を用いて$\mathtt{Expected~Sarsa}(\lambda)$の収束を研究する。
オフライン推定(マルチステップブートストラッピング)を$\mathtt{Expected~Sarsa}(\lambda)$に適用することは、オフ・ポリティクス学習において不安定であることを示す。
さらに、convex-concave saddle-pointフレームワークに基づいて、収束する$\mathtt{gradient~expected~sarsa}(\lambda)$ ($\mathtt{ges}(\lambda)$)アルゴリズムを提案する。
この理論解析は、我々の$\mathtt{GES}(\lambda)$が線形収束率で最適解に収束していることを示し、これは最先端の時間差学習アルゴリズムに匹敵するものである。
さらに,ステップサイズが$\mathtt{GES}(\lambda)$の有限時間性能にどのように影響するかを調べるために,リアプノフ関数の手法を開発した。
最後に、$\mathtt{GES}(\lambda)$の有効性を検証する実験を行います。
関連論文リスト
- Iterative thresholding for non-linear learning in the strong $\varepsilon$-contamination model [3.309767076331365]
閾値降下を用いた単一ニューロンモデル学習のための近似境界を導出する。
線形回帰問題も研究し、$sigma(mathbfx) = mathbfx$ となる。
論文 参考訳(メタデータ) (2024-09-05T16:59:56Z) - An Oblivious Stochastic Composite Optimization Algorithm for Eigenvalue
Optimization Problems [76.2042837251496]
相補的な合成条件に基づく2つの難解なミラー降下アルゴリズムを導入する。
注目すべきは、どちらのアルゴリズムも、目的関数のリプシッツ定数や滑らかさに関する事前の知識なしで機能する。
本稿では,大規模半確定プログラム上での手法の効率性とロバスト性を示す。
論文 参考訳(メタデータ) (2023-06-30T08:34:29Z) - Convergence of a Normal Map-based Prox-SGD Method under the KL
Inequality [0.0]
我々は、$symbol$k$収束問題に対して、新しいマップベースのアルゴリズム(mathsfnorMtext-mathsfSGD$)を提案する。
論文 参考訳(メタデータ) (2023-05-10T01:12:11Z) - High Probability Convergence of Stochastic Gradient Methods [15.829413808059124]
最適解への初期距離に依存する有界収束を示す。
AdaGrad-Normのハイバウンドが得られることを示す。
論文 参考訳(メタデータ) (2023-02-28T18:42:11Z) - Beyond Uniform Smoothness: A Stopped Analysis of Adaptive SGD [38.221784575853796]
この研究は、勾配を用いて潜在的に一定の滑らかさを持つ非アトー関数の1次定常点を求める問題を考える。
我々は、ノイズに一様境界を仮定することなく$mathcalO(fracmathrmpolylog(T)sigmatT)$収束率を証明できる技術を開発した。
論文 参考訳(メタデータ) (2023-02-13T18:13:36Z) - ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。
我々はSCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-01T18:51:29Z) - An Optimal Stochastic Algorithm for Decentralized Nonconvex Finite-sum
Optimization [25.21457349137344]
私たちは、DEARESTが少なくとも$mathcal O(+sqrtmnLvarepsilon-2)$ 1次オラクル(IFO)コールと$mathcal O(Lvarepsilon-2/sqrt1-lambda_W)$通信ラウンドを必要とすることを示す証拠を示します。
論文 参考訳(メタデータ) (2022-10-25T11:37:11Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Streaming Complexity of SVMs [110.63976030971106]
本稿では,ストリーミングモデルにおけるバイアス正規化SVM問題を解く際の空間複雑性について検討する。
両方の問題に対して、$frac1lambdaepsilon$の次元に対して、$frac1lambdaepsilon$よりも空間的に小さいストリーミングアルゴリズムを得ることができることを示す。
論文 参考訳(メタデータ) (2020-07-07T17:10:00Z) - Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。
特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文 参考訳(メタデータ) (2020-02-10T23:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。