論文の概要: Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach
- arxiv url: http://arxiv.org/abs/2603.08979v1
- Date: Mon, 09 Mar 2026 22:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.851007
- Title: Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach
- Title(参考訳): ボレル空間上のロバストなマルコフ決定過程:公理的アプローチによる性能保証
- Authors: Sivaramakrishnan Ramani,
- Abstract要約: 乱れ分布が未知のマルコフ決定過程(MDP)を考察する。
我々はロバストなマルコフ決定プロセス(RMDP)を用いてこの問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider Markov decision processes (MDPs) with unknown disturbance distribution and address this problem using the robust Markov decision process (RMDP) approach. We construct the empirical distribution of the unknown disturbance distribution and characterize our ambiguity set of distributions as the sublevel set of a nonnegative distance function from the empirical distribution. By connecting the weak convergence of distributions to convergence with respect to the distance function, we prove that the robust optimal value function and the out-of-sample value function converge to the true optimal value function with increasing sample-sizes. We establish that, for finite sample-sizes, the robust optimal value function serves as a high probability upper bound on the out-of-sample value function. We also obtain probabilistic convergence rates, sample complexity bounds, and out-of-distribution performance bounds. The finite sample performance guarantees rely on the distance function satisfying a certain concentration type inequality. Several well-studied distances in the literature meet the requirements imposed on the distance function. We also analyze the data-driven properties of empirical MDPs and demonstrate that, unlike our data-driven RMDPs, empirical MDPs fail to satisfy some of the finite sample performance guarantees.
- Abstract(参考訳): 我々は、乱れ分布が未知なマルコフ決定過程(MDP)を考察し、ロバストなマルコフ決定過程(RMDP)アプローチを用いてこの問題に対処する。
未知の外乱分布の実験的分布を構築し、その分布のあいまいさ集合を経験分布から非負距離関数の下位レベル集合として特徴付ける。
分布の弱収束を距離関数に対する収束に結合することにより、ロバストな最適値関数と外サンプル値関数が標本サイズの増大とともに真の最適値関数に収束することを証明する。
有限個のサンプルサイズに対して、ロバストな最適値関数は、サンプル外値関数上の高い確率上界として機能することを示す。
また,確率収束率,サンプル複雑性境界,アウト・オブ・ディストリビューション性能境界も取得する。
有限サンプル性能は、特定の濃度型不等式を満たす距離関数に依存する。
文学におけるいくつかのよく研究された距離は、距離関数に課される要件を満たす。
また、経験的MDPのデータ駆動特性を分析し、データ駆動型RMDPとは異なり、経験的MDPは限られたサンプル性能保証を満たさないことを示した。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - On diffusion-based generative models and their error bounds: The log-concave case with full convergence estimates [5.13323375365494]
我々は,強い対数対数データの下での拡散に基づく生成モデルの収束挙動を理論的に保証する。
スコア推定に使用される関数のクラスは、スコア関数上のリプシッツネスの仮定を避けるために、リプシッツ連続関数からなる。
この手法はサンプリングアルゴリズムにおいて最もよく知られた収束率をもたらす。
論文 参考訳(メタデータ) (2023-11-22T18:40:45Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Robust Estimation for Nonparametric Families via Generative Adversarial
Networks [92.64483100338724]
我々は,高次元ロバストな統計問題を解くためにGAN(Generative Adversarial Networks)を設計するためのフレームワークを提供する。
我々の研究は、これらをロバスト平均推定、第二モーメント推定、ロバスト線形回帰に拡張する。
技術面では、提案したGAN損失は、スムーズで一般化されたコルモゴロフ-スミルノフ距離と見なすことができる。
論文 参考訳(メタデータ) (2022-02-02T20:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。