論文の概要: Central Limit Theorems for Transition Probabilities of Controlled Markov Chains
- arxiv url: http://arxiv.org/abs/2508.01517v1
- Date: Sat, 02 Aug 2025 23:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.919586
- Title: Central Limit Theorems for Transition Probabilities of Controlled Markov Chains
- Title(参考訳): 制御マルコフ鎖の遷移確率に対する中心極限理論
- Authors: Ziwei Su, Imon Banerjee, Diego Klabjan,
- Abstract要約: 制御マルコフ連鎖における遷移行列の非パラメトリック推定器に対する中心極限定理(CLT)を開発する。
我々は、推定モデルから得られた最適ポリシーを含む任意の定常ポリシーの値、Q-、利点関数についてCLTを導出する。
これらの結果は、オフライン政策評価と最適政策回復のための新しい統計ツールを提供し、遷移確率の仮説テストを可能にする。
- 参考スコア(独自算出の注目度): 14.351243505824886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a central limit theorem (CLT) for the non-parametric estimator of the transition matrices in controlled Markov chains (CMCs) with finite state-action spaces. Our results establish precise conditions on the logging policy under which the estimator is asymptotically normal, and reveal settings in which no CLT can exist. We then build upon it to derive CLTs for the value, Q-, and advantage functions of any stationary stochastic policy, including the optimal policy recovered from the estimated model. Goodness-of-fit tests are derived as a corollary, which enable us to test whether the logged data is stochastic. These results provide new statistical tools for offline policy evaluation and optimal policy recovery, and enable hypothesis tests for transition probabilities.
- Abstract(参考訳): 制御マルコフ連鎖(CMC)における遷移行列の非パラメトリック推定器の有限状態作用空間に対する中心極限定理(CLT)を開発する。
本研究は, 推定器が漸近的に正常である検層ポリシーの正確な条件を定め, CLTが存在しない設定を明らかにした。
次に、推定モデルから得られた最適ポリシを含む任意の定常確率ポリシーの値、Q-、利点関数について、CLTを導出する。
良質なテストは、ログされたデータが確率的かどうかをテストできるように、ロールナリーとして導出されます。
これらの結果は、オフライン政策評価と最適政策回復のための新しい統計ツールを提供し、遷移確率の仮説テストを可能にする。
関連論文リスト
- COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Adaptive Conformal Prediction by Reweighting Nonconformity Score [0.0]
我々は、QRF(Quantile Regression Forest)を用いて、不整合スコアの分布を学習し、QRFの重みを利用して、テストポイントに類似した残差を持つサンプルにより重要度を割り当てる。
提案手法は,仮定のない有限標本境界範囲と訓練条件範囲を満足し,適切な仮定の下で条件付き範囲を確保できる。
論文 参考訳(メタデータ) (2023-03-22T16:42:19Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - Mathematical Properties of Continuous Ranked Probability Score
Forecasting [0.0]
分布回帰法によるCRPSの収束率について検討する。
分布回帰に対するk-アネレスト近傍法とカーネル法が,次元$dgeq2$の収束率の最適値に達することを示す。
論文 参考訳(メタデータ) (2022-05-09T15:01:13Z) - Transfer Learning in Information Criteria-based Feature Selection [0.0]
転送学習をMallowsのCp(TLCp)と組み合わせることで、従来のMallowsのCp基準よりも精度と安定性が向上することを示す。
また,移動学習フレームワークはベイズ情報基準などの他の特徴選択基準にも拡張可能であることを示す。
論文 参考訳(メタデータ) (2021-07-06T19:12:15Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。