論文の概要: Open-loop POMDP Simplification and Safe Skipping of Replanning with Formal Performance Guarantees
- arxiv url: http://arxiv.org/abs/2604.01352v1
- Date: Wed, 01 Apr 2026 20:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.872361
- Title: Open-loop POMDP Simplification and Safe Skipping of Replanning with Formal Performance Guarantees
- Title(参考訳): オープンループPMDPの簡易化と形式的性能保証によるリプランの安全スキーッピング
- Authors: Da Kong, Vadim Indelman,
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下での意思決定の基本的な数学的枠組みを提供する。
POMDPの正確な解は計算的に計算可能である。
本稿では,形式的性能保証を伴う適応的オープンループ単純化のための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.578783083599621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) provide a principled mathematical framework for decision-making under uncertainty. However, the exact solution to POMDPs is computationally intractable. In this paper, we address the computational intractability by introducing a novel framework for adaptive open-loop simplification with formal performance guarantees. Our method adaptively interleaves open-loop and closed-loop planning via a topology-based belief tree, enabling a significant reduction in planning complexity. The key contribution lies in the derivation of efficiently computable bounds which provide formal guarantees and can be used to ensure that our simplification can identify the immediate optimal action of the original POMDP problem. Our framework therefore provides computationally tractable performance guarantees for macro-actions within POMDPs. Furthermore, we propose a novel framework for safely skipping replanning during execution, supported by theoretical guarantees on multi-step open-loop action sequences. To the best of our knowledge, this framework is the first to address skipping replanning with formal performance guarantees. Practical online solvers for our proposed simplification are developed, including a sampling-based solver and an anytime solver. Empirical results demonstrate substantial computational speedups while maintaining provable performance guarantees, advancing the tractability and efficiency of POMDP planning.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下での意思決定の基本的な数学的枠組みを提供する。
しかし、POMDPの正確な解は計算的に難解である。
本稿では,形式的性能保証を伴う適応的オープンループ単純化のための新しいフレームワークを導入することにより,計算の難易度に対処する。
提案手法は,トポロジに基づく信仰ツリーを通じて,オープンループとクローズループのプランニングを適応的にインターリーブすることで,計画の複雑さを大幅に低減する。
重要な貢献は、形式的な保証を提供する効率的な計算可能な境界の導出であり、我々の単純化が元のPOMDP問題の即時的最適作用を確実に特定するために使用できる。
そこで本フレームワークは,POMDP内のマクロアクションに対して,計算処理が可能な性能保証を提供する。
さらに,複数ステップのオープンループ動作シーケンスに関する理論的保証によって支援された,実行中のリプランニングを安全にスキップするための新しいフレームワークを提案する。
私たちの知る限りでは、このフレームワークは、正式なパフォーマンス保証によるスキップリプランに最初に対処するものです。
本提案手法は, サンプリング型解法と随時解法を含む, 簡易化のための実用的なオンライン解法である。
実証的な結果から,実証可能な性能保証を維持しつつ,計算速度が大幅に向上し,POMDP計画のトラクタビリティと効率が向上した。
関連論文リスト
- Accelerated Online Risk-Averse Policy Evaluation in POMDPs with Theoretical Guarantees and Novel CVaR Bounds [9.269394037577177]
この研究は、部分的に観測可能な領域における条件付き値-アット・リスク評価を加速するための理論的枠組みを導入する。
単純化された信念-MDPから計算可能なCVaR値関数の上下境界を確立する。
我々は,確率的保証を伴う粒子信頼型MDPフレームワーク内で,これらの境界に対する推定器を開発する。
論文 参考訳(メタデータ) (2026-02-26T15:01:40Z) - Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。
提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文 参考訳(メタデータ) (2026-02-09T06:29:54Z) - Constrained and Robust Policy Synthesis with Satisfiability-Modulo-Probabilistic-Model-Checking [4.064849471241967]
本稿では,任意の構造制約を受けるロバストポリシを効果的に計算するための最初のアプローチを提案する。
数百のベンチマークの実験は、制約付きかつ堅牢なポリシー合成の実現可能性を示している。
論文 参考訳(メタデータ) (2025-11-11T10:28:42Z) - Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning [48.426139299991604]
プロセス認識型RLを実現する新しいフレームワークである textbfSPRO を提案する。
SPROはバニラGRPOより3.4倍高い訓練効率と17.5%の精度で性能が向上した。
特にSPROは、GRPOのような結果管理されたRL法と比較して、工業的実装に有利な計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2025-07-02T10:05:14Z) - Finite-Sample-Based Reachability for Safe Control with Gaussian Process Dynamics [35.79393879150088]
本稿では,保守主義を回避しつつ,モデルの不確実性を効率的に伝播するサンプリングベースフレームワークを提案する。
提案手法は,精度の高い到達可能集合オーバー近似と安全なクローズドループ性能を示す。
論文 参考訳(メタデータ) (2025-05-12T14:20:20Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Oracle-Efficient Regret Minimization in Factored MDPs with Unknown
Structure [57.90236104782219]
非絶対因子化マルコフ決定過程(FMDP)における後悔の研究
既存の全てのアルゴリズムは、FMDPの因子構造が学習者に事前に知られていると強く仮定する。
後悔を最小限に抑えながらFMDPの構造を学習する最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-13T12:30:35Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Formal Controller Synthesis for Continuous-Space MDPs via Model-Free
Reinforcement Learning [1.0928470926399565]
連続空間マルコフ決定プロセス(MDP)のポリシーを合成する新しい強化学習手法を提案する。
この論文の重要な貢献は、有限のMDP上での強化学習に古典的な収束結果を活用することである。
本稿では,学習を高速化するために,新たな報酬形成手法を提案する。
論文 参考訳(メタデータ) (2020-03-02T08:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。