論文の概要: Robust Parameter Learning for Uncertain MDPs
- arxiv url: http://arxiv.org/abs/2605.01339v1
- Date: Sat, 02 May 2026 09:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.715123
- Title: Robust Parameter Learning for Uncertain MDPs
- Title(参考訳): 不確かさMDPに対するロバストパラメータ学習
- Authors: Yannik Schnitzer, Alessandro Abate, David Parker,
- Abstract要約: 未知のマルコフ決定過程(MDP)を検証するための学習ベースのアプローチは、しばしば不確実なMDPを用いる。
本稿では,パラメータの集合上で遷移確率が表現されるパラメトリックMDP(pMDP)を用いて,そのようなモデルを学習することを提案する。
我々は、経験的遷移周波数からの統計的不確実性をpMDPのパラメータ空間に予測し、基礎となるMDPに対してほぼ正しい(PAC)不確実性モデルを生成する。
- 参考スコア(独自算出の注目度): 55.60489406616378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based approaches to verifying unknown Markov decision processes (MDPs) often employ uncertain MDPs. These models use, for example, confidence intervals to capture transition uncertainty and allow synthesis of policies that are robust to this uncertainty. However, this approach typically quantifies uncertainty independently for individual transition probabilities, ignoring dependencies due to shared latent quantities. We propose to learn such models using parametric MDPs (pMDPs), where transition probabilities are expressions over a set of parameters. We project statistical uncertainty from empirical transition frequencies onto the pMDP's parameter space, yielding a probably approximately correct (PAC) uncertainty model for the underlying MDP that respects the algebraic dependencies between transitions. The resulting models are algorithmically challenging to solve, so we propose a hierarchy of sound polytopic outer approximations of the induced confidence set. We implement and evaluate our approach, demonstrating substantially tighter uncertainty estimates than classical interval-based uncertain MDP learning techniques.
- Abstract(参考訳): 未知のマルコフ決定過程(MDP)を検証するための学習ベースのアプローチは、しばしば不確実なMDPを用いる。
これらのモデルは、例えば、信頼区間を使って遷移の不確実性を捕捉し、この不確実性に対して堅牢なポリシーの合成を可能にする。
しかし、このアプローチは通常、個々の遷移確率に対して独立に不確実性を定量化し、共有潜在量による依存を無視している。
本稿では,パラメータの集合上で遷移確率が表現されるパラメトリックMDP(pMDP)を用いて,そのようなモデルを学習することを提案する。
我々は、経験的遷移周波数からの統計的不確かさをpMDPのパラメータ空間に予測し、遷移間の代数的依存関係を尊重する基礎となるMDPに対して、ほぼ正しい(PAC)不確かさモデルを生成する。
得られたモデルはアルゴリズム的に解くのが難しいため、誘導された信頼集合の音響多面的外的近似の階層構造を提案する。
提案手法を実装,評価し,古典的区間に基づく不確実性学習手法よりもはるかに厳密な不確実性推定を実証した。
関連論文リスト
- Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。
本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文 参考訳(メタデータ) (2025-08-01T15:23:15Z) - Robust Counterfactual Inference in Markov Decision Processes [3.047215509762019]
現在のアプローチでは、カウンターファクトを識別するために特定の因果モデルを想定している。
反実遷移確率の厳密な境界を計算できる新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2025-02-19T13:56:20Z) - Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic
Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文 参考訳(メタデータ) (2022-10-12T07:57:03Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian
Noise [59.47042225257565]
雑音分布の明示的な表現に依存しない新しい計画法を提案する。
まず、連続系を離散状態モデルに抽象化し、状態間の確率的遷移によってノイズを捕捉する。
いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。
論文 参考訳(メタデータ) (2021-10-25T06:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。