論文の概要: POMDPPlanners: Open-Source Package for POMDP Planning
- arxiv url: http://arxiv.org/abs/2602.20810v1
- Date: Tue, 24 Feb 2026 11:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.734859
- Title: POMDPPlanners: Open-Source Package for POMDP Planning
- Title(参考訳): POMDPPlanners: POMDPプランニング用オープンソースパッケージ
- Authors: Yaacov Pariente, Vadim Indelman,
- Abstract要約: POMDPPlannersは、部分的に観測可能なマルコフ決定プロセス(POMDP)計画アルゴリズムを実証評価するためのオープンソースのPythonパッケージである。
POMDPPlannersは、不確実性の下で意思決定に関するスケーラブルで再現可能な研究を可能にするように設計されている。
- 参考スコア(独自算出の注目度): 9.269394037577177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present POMDPPlanners, an open-source Python package for empirical evaluation of Partially Observable Markov Decision Process (POMDP) planning algorithms. The package integrates state-of-the-art planning algorithms, a suite of benchmark environments with safety-critical variants, automated hyperparameter optimization via Optuna, persistent caching with failure recovery, and configurable parallel simulation -- reducing the overhead of extensive simulation studies. POMDPPlanners is designed to enable scalable, reproducible research on decision-making under uncertainty, with particular emphasis on risk-sensitive settings where standard toolkits fall short.
- Abstract(参考訳): 提案するPOMDPPlannersは,部分観測可能マルコフ決定プロセス(POMDP)計画アルゴリズムの実験的評価を行うオープンソースPythonパッケージである。
このパッケージは、最先端の計画アルゴリズム、安全クリティカルな亜種を備えたベンチマーク環境のスイート、Optunaによる自動ハイパーパラメータ最適化、障害回復を伴う永続的なキャッシュ、および設定可能な並列シミュレーションを統合することで、広範なシミュレーション研究のオーバーヘッドを低減している。
POMDPPlannersは、不確実性の下で意思決定をスケーラブルで再現可能な調査を可能にするように設計されており、特に標準ツールキットが不足するリスクに敏感な設定に重点を置いている。
関連論文リスト
- Sequential Bayesian Optimal Experimental Design in Infinite Dimensions via Policy Gradient Reinforcement Learning [3.2580743227673694]
高忠実性アプローチでは、ネストしたベイズ反転と設計ループの中で、繰り返し前方および随伴したPDEが解かれる。
我々は、SBOEDを有限水平マルコフ決定プロセスとして定式化し、ポリシー段階の強化学習を通じて、償却設計ポリシーを学習する。
汚染源追跡のための逐次マルチセンサ配置に関する数値実験は、高忠実度有限要素法よりも約100倍のスピードアップを示す。
論文 参考訳(メタデータ) (2026-01-09T15:44:49Z) - Partially Observable Reference Policy Programming: Solving POMDPs Sans Numerical Optimisation [4.258302855015618]
本稿では,有意義な未来史を深く分析するオンライン近似POMDPソルバを提案する。
提案手法は, サンプリング近似誤差の平均値によって, 性能損失が制限されるというアルゴリズムの基本的スキームに対して理論的保証を与える。
論文 参考訳(メタデータ) (2025-07-16T12:33:32Z) - Efficient Risk-sensitive Planning via Entropic Risk Measures [51.42922439693624]
動的プログラミングにより,エントロピーリスク対策(EntRM)のみを効率的に最適化できることを示す。
エントロピーリスクの新たな構造解析と滑らかさ特性により, この最適性を効果的に計算できることを実証する。
論文 参考訳(メタデータ) (2025-02-27T09:56:51Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Risk-sensitive Markov Decision Process and Learning under General Utility Functions [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
意思決定プロセス(MDP)の枠組みにおいて,意思決定者が累積報酬の汎用機能を最適化しようとするシナリオを考える。
累積報酬の空間上でのエプシロン被覆を用いた修正値反復アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - RAPTOR: End-to-end Risk-Aware MDP Planning and Policy Learning by
Backpropagation [12.600828753197204]
PyTorch (RAP) を用いたリスクアウェアプランニング(リスクアウェアプランニング)を導入する。
本研究では, 非線形ナビゲーション, HVAC制御, 線形貯水池制御を含む3つの高次要素について, これら2種類のRAPTORを評価し, 比較した。
論文 参考訳(メタデータ) (2021-06-14T09:27:19Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。