論文の概要: Recursively-Constrained Partially Observable Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2310.09688v2
- Date: Wed, 20 Dec 2023 14:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 21:50:58.307442
- Title: Recursively-Constrained Partially Observable Markov Decision Processes
- Title(参考訳): 繰り返し拘束された部分観測可能なマルコフ決定過程
- Authors: Qi Heng Ho, Tyler Becker, Benjamin Kraske, Zakariya Laouar, Martin S.
Feather, Federico Rossi, Morteza Lahijanian, Zachary N. Sunberg
- Abstract要約: 制約付き部分可観測マルコフ決定プロセス(C-POMDP)は、遷移不確実性と部分可観測性の下でそのような問題のモデル化を可能にする。
最適C-POMDPポリシーはベルマンの最適性原理に反する可能性があり、したがって直観的行動を示す可能性がある。
再帰的制約付きPOMDP (Recursively-Constrained POMDP, RC-POMDP) という新しい定式化を導入する。
- 参考スコア(独自算出の注目度): 14.46993581579248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many problems, it is desirable to optimize an objective function while
imposing constraints on some other objectives. A Constrained Partially
Observable Markov Decision Process (C-POMDP) allows modeling of such problems
under transition uncertainty and partial observability. Typically, the
constraints in C-POMDPs enforce a threshold on expected cumulative costs
starting from an initial state distribution. In this work, we first show that
optimal C-POMDP policies may violate Bellman's principle of optimality and thus
may exhibit unintuitive behaviors, which can be undesirable for some (e.g.,
safety critical) applications. Additionally, online re-planning with C-POMDPs
is often ineffective due to the inconsistency resulting from the violation of
Bellman's principle of optimality. To address these drawbacks, we introduce a
new formulation: the Recursively-Constrained POMDP (RC-POMDP), that imposes
additional history-dependent cost constraints on the C-POMDP. We show that,
unlike C-POMDPs, RC-POMDPs always have deterministic optimal policies, and that
optimal policies obey Bellman's principle of optimality. We also present a
point-based dynamic programming algorithm that synthesizes admissible
near-optimal policies for RC-POMDPs. Evaluations on a set of benchmark problems
demonstrate the efficacy of our algorithm and show that policies for RC-POMDPs
produce more desirable behaviors than policies for C-POMDPs.
- Abstract(参考訳): 多くの問題において、他の目的に制約を課しながら目的関数を最適化することが望ましい。
制約付き部分可観測マルコフ決定プロセス(C-POMDP)は、遷移不確実性と部分可観測性の下でそのような問題のモデル化を可能にする。
通常、C-POMDPの制約は、初期状態分布から始まる期待される累積コストの閾値を強制する。
本稿では,まず,c-pomdp政策がベルマンの最適性原理に違反する可能性を示し,その結果,いくつかの(例えば,安全クリティカルな)アプリケーションでは望ましくない非直観的行動を示すことができることを示した。
さらに、C-POMDPによるオンライン再計画は、ベルマンの最適性原理に違反した結果として生じる矛盾のため、しばしば効果がない。
これらの欠点に対処するために、C-POMDPに履歴依存のコスト制約を加えるRecursively-Constrained POMDP (RC-POMDP) という新しい定式化を導入する。
C-POMDPとは異なり、RC-POMDPは常に決定論的最適ポリシーを持ち、最適ポリシーはベルマンの最適性原理に従う。
また、RC-POMDPに対して許容に近い近似ポリシーを合成する点ベース動的プログラミングアルゴリズムを提案する。
ベンチマーク問題に対する評価は,本アルゴリズムの有効性を示し,rc-pomdpsのポリシーがc-pomdpsのポリシーよりも望ましい行動を生み出すことを示す。
関連論文リスト
- Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming
for Policy Optimization in Mixed Discrete-Continuous MDPs [23.87856533426793]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理や貯水池のシステム管理など,多様な分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。
提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文 参考訳(メタデータ) (2021-02-23T15:01:36Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization
under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。
この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。
まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-10-10T01:53:37Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。