論文の概要: The ODE Method for Asymptotic Statistics in Stochastic Approximation and
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.14427v4
- Date: Wed, 21 Feb 2024 17:11:06 GMT
- Title: The ODE Method for Asymptotic Statistics in Stochastic Approximation and
Reinforcement Learning
- Title(参考訳): 確率近似と強化学習における漸近統計量のODE法
- Authors: Vivek Borkar, Shuhang Chen, Adithya Devraj, Ioannis Kontoyiannis and
Sean Meyn
- Abstract要約: theta_n+1=theta_n + alpha_n + 1 f(theta_n, Phi_n+1),,quad nge 0, ] ここで em が $theta_ninRed$ と $Phi_n $ は、一般的な状態空間上のマルコフ連鎖である。
- 参考スコア(独自算出の注目度): 4.08734863805696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper concerns the stochastic approximation recursion, \[ \theta_{n+1}=
\theta_n + \alpha_{n + 1} f(\theta_n, \Phi_{n+1})
\,,\quad n\ge 0, \] where the {\em estimates} $\theta_n\in\Re^d$ and $ \{
\Phi_n \}$ is a Markov chain on a general state space. In addition to standard
Lipschitz assumptions and conditions on the vanishing step-size sequence, it is
assumed that the associated \textit{mean flow} $ \tfrac{d}{dt} \vartheta_t =
\bar{f}(\vartheta_t)$, is globally asymptotically stable with stationary point
denoted $\theta^*$, where $\bar{f}(\theta)=\text{ E}[f(\theta,\Phi)]$ with
$\Phi$ having the stationary distribution of the chain. The main results are
established under additional conditions on the mean flow and a version of the
Donsker-Varadhan Lyapunov drift condition known as (DV3) for the chain:
(i) An appropriate Lyapunov function is constructed that implies convergence
of the estimates in $L_4$.
(ii) A functional CLT is established, as well as the usual one-dimensional
CLT for the normalized error. Moment bounds combined with the CLT imply
convergence of the normalized covariance $\text{ E} [ z_n z_n^T ]$ to the
asymptotic covariance $\Sigma^\Theta$ in the CLT, where $z_n=
(iii) The CLT holds for the normalized version $z^{\text{ PR}}_n$ of the
averaged parameters $\theta^{\text{ PR}}_n$, subject to standard assumptions on
the step-size. Moreover, the normalized covariance of both $\theta^{\text{
PR}}_n$ and $z^{\text{ PR}}_n$ converge to $\Sigma^{\text{ PR}}$, the minimal
covariance of Polyak and Ruppert.
(iv)} An example is given where $f$ and $\bar{f}$ are linear in $\theta$, and
the Markov chain is geometrically ergodic but does not satisfy (DV3). While the
algorithm is convergent, the second moment of $\theta_n$ is unbounded and in
fact diverges.
- Abstract(参考訳): この論文は確率近似再帰に関するもので、 \[ \theta_{n+1}= \theta_n + \alpha_{n + 1} f(\theta_n, \Phi_{n+1}) \,\quad n\ge 0, \] ここで {\em estimates} $\theta_n\in\Re^d$ と $ \{ \Phi_n \}$ は一般状態空間上のマルコフ連鎖である。
消滅するステップサイズ列上の標準的なリプシッツの仮定と条件に加えて、関連する \textit{mean flow} $ \tfrac{d}{dt} \vartheta_t = \bar{f}(\vartheta_t)$ が、連鎖の定常分布を持つ$\bar{f}(\theta)=\text{E}[f(\theta,\Phi)]$ で表される定常点と世界的に漸近的に安定であると仮定する。
モーメント境界は CLT と結合し、正規化された共分散 $\text{ E} [ z_n z_n^T ]$ を CLT の漸近共分散 $\Sigma^\Theta$ に収束させる。
(iii) CLTは、ステップサイズに関する標準的な仮定に従う平均パラメータの正規化バージョン $z^{\text{ PR}}_n$ を保持する。
さらに、$\theta^{\text{ PR}}_n$ と $z^{\text{ PR}}_n$ の正規化共分散は、Polyak と Ruppert の最小共分散である $\Sigma^{\text{ PR}}$ に収束する。
(iv) 例えば、$f$と$\bar{f}$が$\theta$で線型であり、マルコフ連鎖は幾何学的にエルゴード的であるが満足しない(DV3)。
アルゴリズムは収束するが、$\theta_n$ の第二モーメントは非有界であり、実際には発散する。
