Fugu-MT 論文翻訳(概要): Recursively-Constrained Partially Observable Markov Decision Processes

論文の概要: Recursively-Constrained Partially Observable Markov Decision Processes

arxiv url: http://arxiv.org/abs/2310.09688v2
Date: Wed, 20 Dec 2023 14:45:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 21:50:58.307442
Title: Recursively-Constrained Partially Observable Markov Decision Processes
Title（参考訳）: 繰り返し拘束された部分観測可能なマルコフ決定過程
Authors: Qi Heng Ho, Tyler Becker, Benjamin Kraske, Zakariya Laouar, Martin S. Feather, Federico Rossi, Morteza Lahijanian, Zachary N. Sunberg
Abstract要約: 制約付き部分可観測マルコフ決定プロセス(C-POMDP)は、遷移不確実性と部分可観測性の下でそのような問題のモデル化を可能にする。最適C-POMDPポリシーはベルマンの最適性原理に反する可能性があり、したがって直観的行動を示す可能性がある。再帰的制約付きPOMDP (Recursively-Constrained POMDP, RC-POMDP) という新しい定式化を導入する。
参考スコア（独自算出の注目度）: 14.46993581579248
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In many problems, it is desirable to optimize an objective function while imposing constraints on some other objectives. A Constrained Partially Observable Markov Decision Process (C-POMDP) allows modeling of such problems under transition uncertainty and partial observability. Typically, the constraints in C-POMDPs enforce a threshold on expected cumulative costs starting from an initial state distribution. In this work, we first show that optimal C-POMDP policies may violate Bellman's principle of optimality and thus may exhibit unintuitive behaviors, which can be undesirable for some (e.g., safety critical) applications. Additionally, online re-planning with C-POMDPs is often ineffective due to the inconsistency resulting from the violation of Bellman's principle of optimality. To address these drawbacks, we introduce a new formulation: the Recursively-Constrained POMDP (RC-POMDP), that imposes additional history-dependent cost constraints on the C-POMDP. We show that, unlike C-POMDPs, RC-POMDPs always have deterministic optimal policies, and that optimal policies obey Bellman's principle of optimality. We also present a point-based dynamic programming algorithm that synthesizes admissible near-optimal policies for RC-POMDPs. Evaluations on a set of benchmark problems demonstrate the efficacy of our algorithm and show that policies for RC-POMDPs produce more desirable behaviors than policies for C-POMDPs.
Abstract（参考訳）: 多くの問題において、他の目的に制約を課しながら目的関数を最適化することが望ましい。制約付き部分可観測マルコフ決定プロセス(C-POMDP)は、遷移不確実性と部分可観測性の下でそのような問題のモデル化を可能にする。通常、C-POMDPの制約は、初期状態分布から始まる期待される累積コストの閾値を強制する。本稿では,まず,c-pomdp政策がベルマンの最適性原理に違反する可能性を示し,その結果,いくつかの(例えば,安全クリティカルな)アプリケーションでは望ましくない非直観的行動を示すことができることを示した。さらに、C-POMDPによるオンライン再計画は、ベルマンの最適性原理に違反した結果として生じる矛盾のため、しばしば効果がない。これらの欠点に対処するために、C-POMDPに履歴依存のコスト制約を加えるRecursively-Constrained POMDP (RC-POMDP) という新しい定式化を導入する。 C-POMDPとは異なり、RC-POMDPは常に決定論的最適ポリシーを持ち、最適ポリシーはベルマンの最適性原理に従う。また、RC-POMDPに対して許容に近い近似ポリシーを合成する点ベース動的プログラミングアルゴリズムを提案する。ベンチマーク問題に対する評価は,本アルゴリズムの有効性を示し,rc-pomdpsのポリシーがc-pomdpsのポリシーよりも望ましい行動を生み出すことを示す。

関連論文リスト

Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Sequential Monte Carlo for Policy Optimization in Continuous POMDPs [9.690099639375456]
連続的部分観測可能なマルコフ決定プロセス(POMDP)のための新しいポリシー最適化フレームワークを提案する。本手法は,非マルコフ的ファインマン-カックモデルにおいて,政策学習を確率論的推論とみなす。提案手法の有効性を,標準連続ポデムPベンチマークで実証する。
論文参考訳（メタデータ） (2025-05-22T14:45:46Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Pessimistic Iterative Planning for Robust POMDPs [33.73695799565586]
本稿では,堅牢なメモリベースのPOMDPポリシを計算するための悲観的反復計画(PIP)フレームワークを提案する。 PIP内では、悲観的POMDPに最適化された監督ポリシーを用いて、繰り返しニューラルネットワークを介してFSCを見つけるrFSCNetアルゴリズムを提案する。各イテレーションでrFSCNetは、悲観的POMDPに最適化された監督ポリシーを使用して、繰り返しニューラルネットワークを介してFSCを見つける。
論文参考訳（メタデータ） (2024-08-16T14:25:20Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Compactly Restrictable Metric Policy Optimization Problems [34.3498583619248]
我々は,距離状態と行動空間を持つ決定論的マルコフ決定過程に対する政策最適化問題について検討する。本研究の目的は,MPOPの有効性に関する理論的結果を確立することであり,実際に関連する連続制御システムを特徴づけることである。
論文参考訳（メタデータ） (2022-07-12T21:27:59Z)
Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。摂動法による政策依存推定のための非バイアス推定器を構築する。因果介入を最適化するための一般的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-25T20:25:37Z)
Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文参考訳（メタデータ） (2021-09-09T07:52:35Z)
Identification of Unexpected Decisions in Partially Observable Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文参考訳（メタデータ） (2020-12-23T15:09:28Z)
Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文参考訳（メタデータ） (2020-10-10T01:53:37Z)
Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。 KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文参考訳（メタデータ） (2020-02-17T13:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。