論文の概要: Partially Observable Reference Policy Programming: Solving POMDPs Sans Numerical Optimisation
- arxiv url: http://arxiv.org/abs/2507.12186v1
- Date: Wed, 16 Jul 2025 12:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.385127
- Title: Partially Observable Reference Policy Programming: Solving POMDPs Sans Numerical Optimisation
- Title(参考訳): 部分的に観測可能な参照ポリシプログラミング:POMDPの解決は数値最適化を損なう
- Authors: Edward Kim, Hanna Kurniawati,
- Abstract要約: 本稿では,有意義な未来史を深く分析するオンライン近似POMDPソルバを提案する。
提案手法は, サンプリング近似誤差の平均値によって, 性能損失が制限されるというアルゴリズムの基本的スキームに対して理論的保証を与える。
- 参考スコア(独自算出の注目度): 4.258302855015618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes Partially Observable Reference Policy Programming, a novel anytime online approximate POMDP solver which samples meaningful future histories very deeply while simultaneously forcing a gradual policy update. We provide theoretical guarantees for the algorithm's underlying scheme which say that the performance loss is bounded by the average of the sampling approximation errors rather than the usual maximum, a crucial requirement given the sampling sparsity of online planning. Empirical evaluations on two large-scale problems with dynamically evolving environments -- including a helicopter emergency scenario in the Corsica region requiring approximately 150 planning steps -- corroborate the theoretical results and indicate that our solver considerably outperforms current online benchmarks.
- Abstract(参考訳): 本稿では,段階的なポリシー更新を強制しながら,意味のある将来史を深く分析する新しいオンライン近似POMDPソルバであるPartially Observable Reference Policy Programmingを提案する。
提案手法は,従来の最大値ではなくサンプリング近似誤差の平均値によって性能損失が境界づけられる,というアルゴリズムの基本的スキームに対する理論的保証を提供する。
コルシカ地域のヘリコプター緊急シナリオを含む、動的に進化する環境に関する2つの大規模な問題に関する実証的な評価は、理論的な結果を裏付け、我々の解法が現在のオンラインベンチマークをかなり上回っていることを示している。
関連論文リスト
- Sequential Monte Carlo for Policy Optimization in Continuous POMDPs [9.690099639375456]
連続的部分観測可能なマルコフ決定プロセス(POMDP)のための新しいポリシー最適化フレームワークを提案する。
本手法は,非マルコフ的ファインマン-カックモデルにおいて,政策学習を確率論的推論とみなす。
提案手法の有効性を,標準連続ポデムPベンチマークで実証する。
論文 参考訳(メタデータ) (2025-05-22T14:45:46Z) - A Two-Timescale Primal-Dual Framework for Reinforcement Learning via Online Dual Variable Guidance [3.4354636842203026]
正規化マルコフ決定過程(MDP)の解法としてPGDA-RLを提案する。
PGDA-RLは、経験的リプレイに基づく勾配推定と、基礎となるネスト最適化問題の2段階の分解を統合する。
PGDA-RL は正規化 MDP の最適値関数とポリシーにほぼ確実に収束することを示す。
論文 参考訳(メタデータ) (2025-05-07T15:18:43Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Semantic-Aware Remote Estimation of Multiple Markov Sources Under Constraints [9.514904359788156]
我々は,情報文のエフェスマンティクスを利用して,リモートアクチュエータが推定誤差に対して異なる耐性を有することを考察する。
送信周波数制約下での予測誤差の長期的テキスト状態依存コストを最小限に抑える最適スケジューリングポリシーを見いだす。
論文 参考訳(メタデータ) (2024-03-25T15:18:23Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Offline Reinforcement Learning via Linear-Programming with Error-Bound Induced Constraints [26.008426384903764]
オフライン強化学習(RL)は、事前に収集されたデータセットを使用して、マルコフ決定プロセス(MDP)の最適ポリシーを見つけることを目的としている。
本研究では,オフラインRLにおけるマルコフ決定過程の線形プログラミング (LP) の再検討を行う。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Application-Driven Learning: A Closed-Loop Prediction and Optimization Approach Applied to Dynamic Reserves and Demand Forecasting [41.94295877935867]
我々は、予測と意思決定のプロセスが統合され、協調最適化される新しいクローズドループフレームワークであるアプリケーション駆動学習を提案する。
提案手法は拡張性があり,標準のオープンループ手法よりも一貫して性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-26T02:43:28Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Counterfactual Learning of Stochastic Policies with Continuous Actions [42.903292639112536]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。
対実学習の最適化の側面が重要であることを実証的に示す。
実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-04-22T07:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。