論文の概要: Minimax Regret Optimisation for Robust Planning in Uncertain Markov
Decision Processes
- arxiv url: http://arxiv.org/abs/2012.04626v1
- Date: Tue, 8 Dec 2020 18:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 01:43:18.344289
- Title: Minimax Regret Optimisation for Robust Planning in Uncertain Markov
Decision Processes
- Title(参考訳): 不確かさマルコフ決定過程におけるロバスト計画のためのミニマックス回帰最適化
- Authors: Marc Rigter, Bruno Lacerda, Nick Hawes
- Abstract要約: Minimaxの後悔は、堅牢なポリシーを見つけるためにUncertain MDPの計画の目的として提案されています。
政策の後悔を計算するためにベルマン方程式を導入する。
独立した不確実性を有するUMDPに対して,minimaxの後悔を正確に最適化できることが示される。
- 参考スコア(独自算出の注目度): 3.5289688061934963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The parameters for a Markov Decision Process (MDP) often cannot be specified
exactly. Uncertain MDPs (UMDPs) capture this model ambiguity by defining sets
which the parameters belong to. Minimax regret has been proposed as an
objective for planning in UMDPs to find robust policies which are not overly
conservative. In this work, we focus on planning for Stochastic Shortest Path
(SSP) UMDPs with uncertain cost and transition functions. We introduce a
Bellman equation to compute the regret for a policy. We propose a dynamic
programming algorithm that utilises the regret Bellman equation, and show that
it optimises minimax regret exactly for UMDPs with independent uncertainties.
For coupled uncertainties, we extend our approach to use options to enable a
trade off between computation and solution quality. We evaluate our approach on
both synthetic and real-world domains, showing that it significantly
outperforms existing baselines.
- Abstract(参考訳): マルコフ決定過程(MDP)のパラメータは正確には特定できないことが多い。
不確実なMDP(UMDP)は、パラメータが属する集合を定義することによって、このモデルの曖昧さを捉える。
UMDPにおいて、過度に保守的でない堅牢な政策を見つけるための計画としてミニマックス後悔が提案されている。
本研究では,不確実なコストと遷移関数を持つ確率的短経路(SSP)UMDPの計画に焦点をあてる。
政策の後悔を計算するためにベルマン方程式を導入する。
本稿では, ベルマン方程式を用いた動的プログラミングアルゴリズムを提案し, 独立な不確実性を持つUMDPに対して, ミニマックス後悔を正確に最適化することを示す。
結合された不確実性に対しては、計算とソリューションの品質のトレードオフを可能にするためにオプションを使用するアプローチを拡張します。
我々は,合成ドメインと実世界のドメインの両方に対するアプローチを評価し,既存のベースラインを著しく上回ることを示す。
関連論文リスト
- Anytime-Constrained Reinforcement Learning [6.981971551979697]
制約付きマルコフ決定過程(cMDP)を任意の制約で導入・研究する。
累積コストを付加した最適決定主義的政策が存在することを示す。
非自明な概略的ポリシーの計算は一般にNPハードであることが示される。
論文 参考訳(メタデータ) (2023-11-09T16:51:26Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Policy Gradient Algorithms for Robust MDPs with Non-Rectangular
Uncertainty Sets [10.26382228865201]
非矩形不確実性集合を持つロバスト無限水平マルコフ決定過程(MDP)に対するポリシー勾配アルゴリズムを提案する。
対応するロバストなMDPは動的プログラミング技術では解決できず、実際は難解である。
そこで我々は,大域的最適性保証を提供する非矩形不確実性集合を持つ頑健なMDPに対する最初の完全解法を提案する。
論文 参考訳(メタデータ) (2023-05-30T13:02:25Z) - Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
モデルに基づく手法では、MVPアルゴリズムの変種を設計する。
特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文 参考訳(メタデータ) (2023-01-31T06:54:06Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Adaptive Belief Discretization for POMDP Planning [7.508023795800546]
多くのPOMDPソルバは、信念空間を均一に識別し、(一般に不明な)カバー数の観点から計画誤差を与える。
適応的信念の識別方式を提案し,それに関連する計画誤差を与える。
私達は私達のアルゴリズムがさまざまなシナリオの最先端の技術と競争が高いことを証明します。
論文 参考訳(メタデータ) (2021-04-15T07:04:32Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Efficient Planning in Large MDPs with Weak Linear Function Approximation [4.56877715768796]
大規模意思決定プロセス(MDP)は、MDPの状態を独立して計画アルゴリズムを必要とする。
線形値関数近似を用いたMDPの計画問題を考える。
論文 参考訳(メタデータ) (2020-07-13T04:40:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。