論文の概要: Strengthening Deterministic Policies for POMDPs
- arxiv url: http://arxiv.org/abs/2007.08351v1
- Date: Thu, 16 Jul 2020 14:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 00:01:05.460637
- Title: Strengthening Deterministic Policies for POMDPs
- Title(参考訳): POMDPに対する決定論的政策の強化
- Authors: Leonore Winterer, Ralf Wimmer, Nils Jansen, Bernd Becker
- Abstract要約: 我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
- 参考スコア(独自算出の注目度): 5.092711491848192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The synthesis problem for partially observable Markov decision processes
(POMDPs) is to compute a policy that satisfies a given specification. Such
policies have to take the full execution history of a POMDP into account,
rendering the problem undecidable in general. A common approach is to use a
limited amount of memory and randomize over potential choices. Yet, this
problem is still NP-hard and often computationally intractable in practice. A
restricted problem is to use neither history nor randomization, yielding
policies that are called stationary and deterministic. Previous approaches to
compute such policies employ mixed-integer linear programming (MILP). We
provide a novel MILP encoding that supports sophisticated specifications in the
form of temporal logic constraints. It is able to handle an arbitrary number of
such specifications. Yet, randomization and memory are often mandatory to
achieve satisfactory policies. First, we extend our encoding to deliver a
restricted class of randomized policies. Second, based on the results of the
original MILP, we employ a preprocessing of the POMDP to encompass memory-based
decisions. The advantages of our approach over state-of-the-art POMDP solvers
lie (1) in the flexibility to strengthen simple deterministic policies without
losing computational tractability and (2) in the ability to enforce the
provable satisfaction of arbitrarily many specifications. The latter point
allows taking trade-offs between performance and safety aspects of typical
POMDP examples into account. We show the effectiveness of our method on a broad
range of benchmarks.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)の合成問題は、与えられた仕様を満たすポリシーを計算することである。
このようなポリシーはPOMDPの完全な実行履歴を考慮に入れなければなりません。
一般的なアプローチは、限られたメモリ量を使用して、潜在的な選択をランダム化することです。
しかし、この問題はまだnpハードであり、実際には計算が難しいことが多い。
制限された問題は、履歴もランダム化も使用せず、定常的かつ決定論的と呼ばれるポリシーをもたらすことである。
このようなポリシーを計算する以前のアプローチは、mixed-integer linear programming (milp) を用いる。
時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
任意の数のそのような仕様を扱うことができる。
しかし、ランダム化とメモリは、しばしば満足なポリシーを達成するために必須である。
まず、ランダム化ポリシーの制限されたクラスを提供するためにエンコーディングを拡張します。
第2に、元のMILPの結果に基づいて、メモリベースの決定を包含するPOMDPの事前処理を採用する。
最先端の pomdp ソルバに対する我々のアプローチの利点は,(1)計算能力を失うことなく単純な決定論的ポリシを強化する柔軟性と,(2)任意に多数の仕様を満足させる能力にある。
後者のポイントは、典型的なPOMDPの例のパフォーマンスと安全性のトレードオフを考慮に入れます。
本手法の有効性を,幅広いベンチマークで示す。
関連論文リスト
- Explainable Finite-Memory Policies for Partially Observable Markov Decision Processes [1.0499611180329806]
部分観測可能なマルコフ決定プロセス(POMDP)は、不確実性と部分観測可能性の下での意思決定の基本的なフレームワークである。
我々は、(i)解釈可能な形式主義と(ii)典型的にはより小さいサイズの両方において、そのようなポリシーの表現を提供し、より高い説明可能性をもたらす。
論文 参考訳(メタデータ) (2024-11-20T14:42:23Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - LTL-Constrained Steady-State Policy Synthesis [0.0]
マルコフ決定プロセス(MDP)とこれらすべての型を組み合わせた仕様について検討する。
マルチタイプの仕様を多次元の長期平均報酬に還元する統合ソリューションを提供する。
このアルゴリズムは一般の$omega$-regularプロパティにも拡張され、LDBAと同様にMDPのサイズで実行されます。
論文 参考訳(メタデータ) (2021-05-31T11:35:42Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Point-Based Methods for Model Checking in Partially Observable Markov
Decision Processes [36.07746952116073]
部分的に観測可能なマルコフ決定過程(POMDP)において線形時間論理式を満たすポリシーを合成する手法を提案する。
本稿では,所望の論理式を満たす最大確率を効率的に近似するために,ポイントベースの値反復法を提案する。
我々は,提案手法を大規模POMDPドメインに拡張し,その結果のポリシーの性能に強い拘束力を与えることを示した。
論文 参考訳(メタデータ) (2020-01-11T23:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。