論文の概要: Online Planning for Constrained POMDPs with Continuous Spaces through
Dual Ascent
- arxiv url: http://arxiv.org/abs/2212.12154v1
- Date: Fri, 23 Dec 2022 05:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:44:23.931891
- Title: Online Planning for Constrained POMDPs with Continuous Spaces through
Dual Ascent
- Title(参考訳): 連続空間を有する制約付きpomdpのデュアルアセンシングによるオンラインプランニング
- Authors: Arec Jamgochian, Anthony Corso, Mykel J. Kochenderfer
- Abstract要約: 連続状態, 行動, 観測空間のためのオンラインCPOMDP計画アルゴリズムを提案する。
我々は,おもちゃと現実世界の安全クリティカルな問題をモデル化した連続CPOMDPに対する提案アルゴリズムの有効性を実証的に比較した。
- 参考スコア(独自算出の注目度): 37.61747231296097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rather than augmenting rewards with penalties for undesired behavior,
Constrained Partially Observable Markov Decision Processes (CPOMDPs) plan
safely by imposing inviolable hard constraint value budgets. Previous work
performing online planning for CPOMDPs has only been applied to discrete action
and observation spaces. In this work, we propose algorithms for online CPOMDP
planning for continuous state, action, and observation spaces by combining dual
ascent with progressive widening. We empirically compare the effectiveness of
our proposed algorithms on continuous CPOMDPs that model both toy and
real-world safety-critical problems. Additionally, we compare against the use
of online solvers for continuous unconstrained POMDPs that scalarize cost
constraints into rewards, and investigate the effect of optimistic cost
propagation.
- Abstract(参考訳): 望ましくない行動に対する罰則による報酬を増大させる代わりに、制限された部分的に観察可能なマルコフ決定プロセス(CPOMDP)は、侵害可能なハード制約価値予算を課すことで安全に計画する。
従来のCPOMDPのオンラインプランニング作業は、離散的な行動空間や観測空間にのみ適用されてきた。
本研究では,連続状態,行動,観察空間に対するオンラインcpomdp計画のためのアルゴリズムを提案する。
我々は,おもちゃと現実世界の安全クリティカルな問題をモデル化した連続CPOMDPに対する提案アルゴリズムの有効性を実証的に比較した。
さらに,コスト制約を報酬にスカラー化する連続無拘束pomdpに対するオンラインソルバの利用と比較し,楽観的コスト伝達の効果について検討した。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Recursively-Constrained Partially Observable Markov Decision Processes [13.8724466775267]
C-POMDPは連続的な決定ステップに対して最適なサブ構造特性に反することを示す。
C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。
本稿では,C-POMDPに履歴に依存したコスト制約を課す再帰的制約付きPOMDPを提案する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Provably Efficient Model-Free Algorithms for Non-stationary CMDPs [10.930095238723327]
非定常制約マルコフ決定過程におけるモデルフリー強化学習アルゴリズムについて検討した。
非定常環境では、累積変動が一定の変動予算を超えない限り、報酬、ユーティリティ関数、遷移カーネルは時間とともに任意に変化する。
本稿では,非定常CMDPに対するサブ線形後悔と制約違反をゼロとする,モデルフリーでシミュレータフリーなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-10T06:33:38Z) - Dynamic Regret of Online Markov Decision Processes [84.20723936192945]
オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。
我々は,学習者と実行可能な変更ポリシーのシーケンス間のパフォーマンス差として定義されるパフォーマンス指標として,動的後悔を選択する。
オンラインMDPの基本モデルとして, エピソードループフリーショート・パス(SSP), エピソードSSP, 無限水平MPPの3つを考察する。
論文 参考訳(メタデータ) (2022-08-26T07:42:53Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Efficient Sampling in POMDPs with Lipschitz Bandits for Motion Planning
in Continuous Spaces [5.732271870257913]
不確実性のある意思決定は、部分的に観測可能なマルコフ決定過程(POMDP)とみなすことができる。
POMDPの正確な解を見つけることは一般に難解であるが、この解はサンプリングベースのアプローチによって近似することができる。
自動走行における動作計画の文脈におけるこのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-08T09:31:48Z) - An On-Line POMDP Solver for Continuous Observation Spaces [5.482532589225552]
LABECOP(Lazy Belief extract for Continuous POMDPs)と呼ばれる新しいオンラインPOMDPソルバを提案する。
モンテカルロ・トレー・サーチの手法と粒子フィルタリングを組み合わせることで、離散化された観測空間を必要としない政策緩和を構築する。
連続観測空間を含む3つの異なる問題に対する実験により、LABECOP は最先端の POMDP 解法と類似または類似していることが示された。
論文 参考訳(メタデータ) (2020-11-04T00:16:08Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。