論文の概要: Online Statistical Inference for Nonlinear Stochastic Approximation with
Markovian Data
- arxiv url: http://arxiv.org/abs/2302.07690v1
- Date: Wed, 15 Feb 2023 14:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 14:48:47.994716
- Title: Online Statistical Inference for Nonlinear Stochastic Approximation with
Markovian Data
- Title(参考訳): マルコフデータを用いた非線形確率近似のオンライン統計推論
- Authors: Xiang Li, Jiadong Liang, Zhihua Zhang
- Abstract要約: マルコフデータの単一軌跡を用いた非線形近似アルゴリズムの統計的推定について検討した。
本手法は,自動回帰データや非同期Q-Learningにおけるグラディエント・Descent (SGD) など,様々なシナリオで実用化されている。
- 参考スコア(独自算出の注目度): 22.59079286063505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the statistical inference of nonlinear stochastic approximation
algorithms utilizing a single trajectory of Markovian data. Our methodology has
practical applications in various scenarios, such as Stochastic Gradient
Descent (SGD) on autoregressive data and asynchronous Q-Learning. By utilizing
the standard stochastic approximation (SA) framework to estimate the target
parameter, we establish a functional central limit theorem for its partial-sum
process, $\boldsymbol{\phi}_T$. To further support this theory, we provide a
matching semiparametric efficient lower bound and a non-asymptotic upper bound
on its weak convergence, measured in the L\'evy-Prokhorov metric. This
functional central limit theorem forms the basis for our inference method. By
selecting any continuous scale-invariant functional $f$, the asymptotic pivotal
statistic $f(\boldsymbol{\phi}_T)$ becomes accessible, allowing us to construct
an asymptotically valid confidence interval. We analyze the rejection
probability of a family of functionals $f_m$, indexed by $m \in \mathbb{N}$,
through theoretical and numerical means. The simulation results demonstrate the
validity and efficiency of our method.
- Abstract(参考訳): マルコフデータの単一軌跡を用いた非線形確率近似アルゴリズムの統計的推定について検討した。
提案手法は,SGD(Stochastic Gradient Descent)や非同期Q-Learning(Q-Learning)など,様々なシナリオで実用化されている。
対象パラメータを推定するために標準確率近似(SA)フレームワークを利用することで、その部分和過程に対する関数中心極限定理、$\boldsymbol{\phi}_T$を確立する。
この理論をさらに裏付けるために、l\'evy-prokhorov計量で測定された弱収束に関するマッチング半パラメトリック効率的な下界と非漸近上界を提供する。
この関数中心極限定理は、我々の推論法の基礎となる。
任意の連続スケール不変関数 $f$ を選択することで、漸近的なピボット統計学 $f(\boldsymbol{\phi}_T)$ がアクセス可能となり、漸近的に有効な信頼区間を構築することができる。
汎函数の族 $f_m$, $m \in \mathbb{N}$, 理論的および数値的手段による拒絶確率を解析する。
シミュレーションの結果,本手法の有効性と有効性を示した。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Tractable and Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
一般値関数近似を用いた分布強化学習における後悔の解析について述べる。
理論的な結果は,無限次元の戻り分布を有限個のモーメント関数で近似することが,統計情報をバイアスなく学習する唯一の方法であることを示している。
論文 参考訳(メタデータ) (2024-07-31T00:43:51Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Fast and Robust Online Inference with Stochastic Gradient Descent via
Random Scaling [0.9806910643086042]
本稿では,勾配降下アルゴリズムの平均化法により推定されるパラメータのベクトルに対するオンライン推論法を提案する。
我々のアプローチはオンラインデータで完全に運用されており、機能中心極限定理によって厳格に支えられている。
論文 参考訳(メタデータ) (2021-06-06T15:38:37Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。