論文の概要: Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations
- arxiv url: http://arxiv.org/abs/2602.00474v1
- Date: Sat, 31 Jan 2026 02:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.209141
- Title: Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations
- Title(参考訳): マルコフ連鎖ポアソン方程式に対する固定点反復の安定化
- Authors: Yang Xu, Vaneet Aggarwal,
- Abstract要約: 有限状態マルコフ鎖を$n$状態と遷移行列$P$で研究する。
すべての非退化モードが実周辺不変部分空間 $mathcalK(P)$ によってキャプチャされ、商空間 $mathbbRn/mathcalK(P) 上の誘導作用素が厳密に収縮し、ユニークな商解が得られることを示す。
- 参考スコア(独自算出の注目度): 49.702772230127465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Poisson equations underpin average-reward reinforcement learning, but beyond ergodicity they can be ill-posed, meaning that solutions are non-unique and standard fixed point iterations can oscillate on reducible or periodic chains. We study finite-state Markov chains with $n$ states and transition matrix $P$. We show that all non-decaying modes are captured by a real peripheral invariant subspace $\mathcal{K}(P)$, and that the induced operator on the quotient space $\mathbb{R}^n/\mathcal{K}(P)$ is strictly contractive, yielding a unique quotient solution. Building on this viewpoint, we develop an end-to-end pipeline that learns the chain structure, estimates an anchor based gauge map, and runs projected stochastic approximation to estimate a gauge-fixed representative together with an associated peripheral residual. We prove $\widetilde{O}(T^{-1/2})$ convergence up to projection estimation error, enabling stable Poisson equation learning for multichain and periodic regimes with applications to performance evaluation of average-reward reinforcement learning beyond ergodicity.
- Abstract(参考訳): ポアソン方程式は平均再帰強化学習の基盤となっているが、エルゴディディティを超えて、それらは悪用されうる。つまり、解は非特異であり、標準の固定点反復は、可算鎖や周期鎖上で振動することができる。
有限状態マルコフ鎖を$n$状態と遷移行列$P$で研究する。
すべての非退化モードが実周辺不変部分空間 $\mathcal{K}(P)$ によって捕捉され、商空間 $\mathbb{R}^n/\mathcal{K}(P)$ 上の誘導作用素が厳密に収縮し、一意の商解が得られることを示す。
この観点から,チェーン構造を学習し,アンカーベースゲージマップを推定するエンドツーエンドパイプラインを開発し,確率近似を投影し,ゲージ固定された代表と関連する周辺残差を推定する。
我々は、予測誤差まで$\widetilde{O}(T^{-1/2})$収束を証明し、多鎖系および周期系に対して安定したポアソン方程式学習を可能にし、エルゴディディティを超える平均回帰学習の性能評価に応用する。
関連論文リスト
- Estimating stationary mass, frequency by frequency [11.476508212290275]
本稿では,指数関数的に$alpha$-mixingプロセスの定常分布によって配置される確率質量を推定する問題を考察する。
総変分距離におけるこの確率ベクトルを推定し、$n$の普遍的一貫性を示す。
我々は、自然の自己正規化統計混合配列の濃度不等式を含む補完ツールを開発し、関連する問題に対する推定器の設計と分析に独立して有用であることを示した。
論文 参考訳(メタデータ) (2025-03-17T04:24:21Z) - Markov Chain Variance Estimation: A Stochastic Approximation Approach [14.883782513177094]
マルコフ連鎖上で定義される関数の分散を推定する問題は、定常平均の統計的推測の重要なステップである。
我々は,各ステップで$O(1)$を必要とする新しい再帰的推定器を設計し,過去のサンプルやラン長の知識を一切必要とせず,証明可能な有限サンプル保証付き平均二乗誤差(MSE)に対する最適な$O(frac1n)の収束率を有する。
論文 参考訳(メタデータ) (2024-09-09T15:42:28Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - The Schr\"odinger Bridge between Gaussian Measures has a Closed Form [101.79851806388699]
我々は OT の動的定式化(Schr"odinger bridge (SB) 問題)に焦点を当てる。
本稿では,ガウス測度間のSBに対する閉形式表現について述べる。
論文 参考訳(メタデータ) (2022-02-11T15:59:01Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Tight Nonparametric Convergence Rates for Stochastic Gradient Descent
under the Noiseless Linear Model [0.0]
このモデルに基づく最小二乗リスクに対する1パス, 固定段差勾配勾配の収束度を解析した。
特殊な場合として、ランダムなサンプリング点における値のノイズのない観測から単位区間上の実関数を推定するオンラインアルゴリズムを解析する。
論文 参考訳(メタデータ) (2020-06-15T08:25:50Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。