論文の概要: The ODE Method for Asymptotic Statistics in Stochastic Approximation and
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.14427v1
- Date: Wed, 27 Oct 2021 13:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 19:00:41.075988
- Title: The ODE Method for Asymptotic Statistics in Stochastic Approximation and
Reinforcement Learning
- Title(参考訳): 確率近似と強化学習における漸近統計量のODE法
- Authors: Vivek Borkar, Shuhang Chen, Adithya Devraj, Ioannis Kontoyiannis and
Sean Meyn
- Abstract要約: 本論文はマルコフ雑音による近似の収束と統計に関するものである。
$theta_n+1=theta_n + alpha_n + 1 f(theta_n, Phi_n+1),,quad nge 0, $$ in ここで各$theta_ninRed$は、固定分布$pi$と$f:Redtimes textX toReを持つ一般的な状態空間 X 上の Markov チェーンである。
- 参考スコア(独自算出の注目度): 6.16852156844376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper concerns convergence and asymptotic statistics for stochastic
approximation driven by Markovian noise: $$ \theta_{n+1}= \theta_n + \alpha_{n
+ 1} f(\theta_n, \Phi_{n+1}) \,,\quad n\ge 0, $$ in which each
$\theta_n\in\Re^d$, $ \{ \Phi_n \}$ is a Markov chain on a general state space
X with stationary distribution $\pi$, and $f:\Re^d\times \text{X} \to\Re^d$. In
addition to standard Lipschitz bounds on $f$, and conditions on the vanishing
step-size sequence $\{\alpha_n\}$, it is assumed that the associated ODE is
globally asymptotically stable with stationary point denoted $\theta^*$, where
$\bar f(\theta)=E[f(\theta,\Phi)]$ with $\Phi\sim\pi$. Moreover, the
ODE@$\infty$ defined with respect to the vector field, $$ \bar
f_\infty(\theta):= \lim_{r\to\infty} r^{-1} \bar f(r\theta) \,,\qquad
\theta\in\Re^d, $$ is asymptotically stable. The main contributions are
summarized as follows:
(i) The sequence $\theta$ is convergent if $\Phi$ is geometrically ergodic,
and subject to compatible bounds on $f$.
The remaining results are established under a stronger assumption on the
Markov chain: A slightly weaker version of the Donsker-Varadhan Lyapunov drift
condition known as (DV3).
(ii) A Lyapunov function is constructed for the joint process
$\{\theta_n,\Phi_n\}$ that implies convergence of $\{ \theta_n\}$ in $L_4$.
(iii) A functional CLT is established, as well as the usual one-dimensional
CLT for the normalized error $z_n:= (\theta_n-\theta^*)/\sqrt{\alpha_n}$.
Moment bounds combined with the CLT imply convergence of the normalized
covariance, $$ \lim_{n \to \infty} E [ z_n z_n^T ] = \Sigma_\theta, $$ where
$\Sigma_\theta$ is the asymptotic covariance appearing in the CLT.
(iv) An example is provided where the Markov chain $\Phi$ is geometrically
ergodic but it does not satisfy (DV3). While the algorithm is convergent, the
second moment is unbounded.
- Abstract(参考訳): この論文はマルコフ雑音によって引き起こされる確率近似の収束と漸近統計に関するものである:$$ \theta_{n+1}= \theta_n + \alpha_{n + 1} f(\theta_n, \Phi_{n+1}) \,,,\quad n\ge 0, $$$ in where each $\theta_n\in\Re^d$, $ \{ \Phi_n \}$は定常分布が$\pi$, $f:\Re^d\times \text{X} \to\Re^d$。
標準的なリプシッツ束の$f$と消滅するステップサイズ列 $\{\alpha_n\}$ の条件に加えて、関連するODE が大域的に漸近的に安定であり、固定点が $\theta^*$ と書かれ、$\bar f(\theta)=E[f(\theta,\Phi)]$ が$\Phi\sim\pi$ と表される。
さらに、ベクトル場に関して定義されるODE@$\infty$, $$ \bar f_\infty(\theta):= \lim_{r\to\infty} r^{-1} \bar f(r\theta) \,,,\qquad \theta\in\Re^d, $$は漸近安定である。
主な貢献は以下のとおりである。
(i) 列 $\theta$ が収束するのは、$\Phi$ が幾何学的にエルゴード的であり、$f$ 上の互換境界を持つときである。
残りの結果はマルコフ連鎖のより強い仮定の下で確立され、ドンスカー=ヴァラダン・リャプノフのドリフト条件(dv3)のわずかに弱いバージョンである。
(ii) Lyapunov 関数は、$L_4$ における$\{ \theta_n\}$ の収束を意味するジョイントプロセス $\{\theta_n,\Phi_n\}$ に対して構成される。
(iii)正規化エラー$z_n:= (\theta_n-\theta^*)/\sqrt{\alpha_n}$に対する通常の1次元CLTと同様に関数型CLTを確立する。
モーメント境界と CLT は正規化共分散の収束を暗示し、$$ \lim_{n \to \infty} E [ z_n z_n^T ] = \Sigma_\theta, $$ ここで$\Sigma_\theta$ は CLT に現れる漸近共分散である。
(iv)マルコフ連鎖 $\Phi$ が幾何学的にエルゴード的であるが、満足しないような例(DV3)。
アルゴリズムは収束するが、第2モーメントは非有界である。
関連論文リスト
- Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。
これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。
また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文 参考訳(メタデータ) (2024-08-16T02:33:07Z) - Revisiting Step-Size Assumptions in Stochastic Approximation [1.3654846342364308]
この論文は、一般的なマルコフ的な設定でステップサイズの選択を再考する。
大きな結論は、$rho =0$ または $rho1/2$ の選択は、選択した設定でのみ正当化されるということである。
論文 参考訳(メタデータ) (2024-05-28T05:11:05Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [59.65871549878937]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Convergence of a Normal Map-based Prox-SGD Method under the KL
Inequality [0.0]
我々は、$symbol$k$収束問題に対して、新しいマップベースのアルゴリズム(mathsfnorMtext-mathsfSGD$)を提案する。
論文 参考訳(メタデータ) (2023-05-10T01:12:11Z) - Finite-time High-probability Bounds for Polyak-Ruppert Averaged Iterates
of Linear Stochastic Approximation [22.51165277694864]
本稿では,線形近似 (LSA) アルゴリズムの有限時間解析を行う。
LSAは$d$次元線形系の近似解を計算するために用いられる。
論文 参考訳(メタデータ) (2022-07-10T14:36:04Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Accelerating Optimization and Reinforcement Learning with
Quasi-Stochastic Approximation [2.294014185517203]
本稿では、収束理論を準確率近似に拡張することを目的とする。
強化学習のためのグラデーションフリー最適化とポリシー勾配アルゴリズムへの応用について説明する。
論文 参考訳(メタデータ) (2020-09-30T04:44:45Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。