論文の概要: Solving Robust Markov Decision Processes: Generic, Reliable, Efficient
- arxiv url: http://arxiv.org/abs/2412.10185v1
- Date: Fri, 13 Dec 2024 14:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:50.357111
- Title: Solving Robust Markov Decision Processes: Generic, Reliable, Efficient
- Title(参考訳): ロバストマルコフ決定プロセスの解決 - ジェネリックで信頼性があり、効率的
- Authors: Tobias Meggendorfer, Maximilian Weininger, Patrick Wienhöft,
- Abstract要約: マルコフ決定プロセス(MDP)は確率の存在下でのシーケンシャルな意思決定のための確立されたモデルである。
我々は、汎用的で信頼性があり、効率的なRMDPを解くためのフレームワークを提供する。
我々のプロトタイプ実装は、既存のツールよりも桁違いに優れている。
- 参考スコア(独自算出の注目度): 3.789219860006095
- License:
- Abstract: Markov decision processes (MDP) are a well-established model for sequential decision-making in the presence of probabilities. In robust MDP (RMDP), every action is associated with an uncertainty set of probability distributions, modelling that transition probabilities are not known precisely. Based on the known theoretical connection to stochastic games, we provide a framework for solving RMDPs that is generic, reliable, and efficient. It is *generic* both with respect to the model, allowing for a wide range of uncertainty sets, including but not limited to intervals, $L^1$- or $L^2$-balls, and polytopes; and with respect to the objective, including long-run average reward, undiscounted total reward, and stochastic shortest path. It is *reliable*, as our approach not only converges in the limit, but provides precision guarantees at any time during the computation. It is *efficient* because -- in contrast to state-of-the-art approaches -- it avoids explicitly constructing the underlying stochastic game. Consequently, our prototype implementation outperforms existing tools by several orders of magnitude and can solve RMDPs with a million states in under a minute.
- Abstract(参考訳): マルコフ決定プロセス(MDP)は確率の存在下でのシーケンシャルな意思決定のための確立されたモデルである。
頑健な MDP (RMDP) では、全ての作用は確率分布の不確かさの集合と関連付けられ、遷移確率が正確には分かっていないことをモデル化する。
確率ゲームに対する既知の理論的関係に基づいて、汎用的で信頼性があり、効率的であるRMDPを解くためのフレームワークを提供する。
モデルに関して*ジェネリック*であり、インターバル、$L^1$-または$L^2$--ボール、ポリトープに制限されない幅広い不確実性集合、そして、長期平均報酬、未計算の総報酬、確率的最短パスを含む目的についてである。
私たちのアプローチは限界に収束するだけでなく、計算中にいつでも精度保証を提供するので、*信頼性*です。
なぜなら、最先端のアプローチとは対照的に、基礎となる確率ゲームの構築を明示的に避けるからである。
その結果,プロトタイプ実装は既存のツールを桁違いに上回り,100万状態のRMDPを1分以内で解くことができた。
関連論文リスト
- Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Robust Markov Decision Processes without Model Estimation [32.16801929347098]
堅牢なMDPの適用には,2つの大きな障壁がある。
第一に、ほとんどの研究はモデルベース体制における堅牢なMDPを研究している。
第二に、先行研究は通常、最適な解を得るために強いオラクルを仮定する。
論文 参考訳(メタデータ) (2023-02-02T17:29:10Z) - B$^3$RTDP: A Belief Branch and Bound Real-Time Dynamic Programming
Approach to Solving POMDPs [17.956744635160568]
我々は,Belief Branch and Bound RTDP (B$3$RTDP) と呼ぶRTDP-Belアルゴリズムの拡張を提案する。
我々のアルゴリズムは有界値関数表現を使い、これを2つの新しい方法で活用する。
B$3$RTDPは、既知のPOMDP問題に対する最先端のSARSOP解法よりも少ない時間で大きなリターンが得られることを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-22T21:42:59Z) - PAC Statistical Model Checking of Mean Payoff in Discrete- and
Continuous-Time MDP [0.34410212782758043]
我々は,未知のMDPにおいて,平均ペイオフをほぼ正確に計算する最初のアルゴリズムを提供する。
状態空間に関する知識は一切必要とせず、最小遷移確率の低い境界のみである。
提案アルゴリズムは, ほぼ正しいPAC境界を提供するだけでなく, 標準ベンチマークで実験を行うことにより, その実用性を実証する。
論文 参考訳(メタデータ) (2022-06-03T09:13:27Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian
Noise [59.47042225257565]
雑音分布の明示的な表現に依存しない新しい計画法を提案する。
まず、連続系を離散状態モデルに抽象化し、状態間の確率的遷移によってノイズを捕捉する。
いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。
論文 参考訳(メタデータ) (2021-10-25T06:18:55Z) - Efficient semidefinite-programming-based inference for binary and
multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。
一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文 参考訳(メタデータ) (2020-12-04T15:36:29Z) - Scalable First-Order Methods for Robust MDPs [31.29341288414507]
本稿では、ロバストなMDPを解くための第1次フレームワークを提案する。
値イテレーション更新の精度とコストのトレードオフを慎重に制御することで、O left(A2 S3log(S)log(epsilon-1) epsilon-1 right)$のエルゴード収束率を達成する。
論文 参考訳(メタデータ) (2020-05-11T21:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。