論文の概要: Partially Observable Monte-Carlo Graph Search
- arxiv url: http://arxiv.org/abs/2507.20951v1
- Date: Mon, 28 Jul 2025 16:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.194394
- Title: Partially Observable Monte-Carlo Graph Search
- Title(参考訳): 部分観測可能なモンテカルログラフ探索
- Authors: Yang You, Vincent Thomas, Alex Schutz, Robert Skilton, Nick Hawes, Olivier Buffet,
- Abstract要約: 大規模なPOMDPをオフラインで解くために,新しいサンプリングベースアルゴリズムである部分的に観測可能なモンテカルログラフ探索(POMCGS)を提案する。
POMCGSはこのサーチツリーをオンザフライで折り畳み、ポリシーグラフを構築することで、計算を大幅に削減することができる。
我々は,POMCGSが従来のオフラインアルゴリズムでは計算できない,最も困難なPOMDPのポリシーを生成できることを実証した。
- 参考スコア(独自算出の注目度): 15.40087235187116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, large partially observable Markov decision processes (POMDPs) are often solved by sampling-based online methods which interleave planning and execution phases. However, a pre-computed offline policy is more desirable in POMDP applications with time or energy constraints. But previous offline algorithms are not able to scale up to large POMDPs. In this article, we propose a new sampling-based algorithm, the partially observable Monte-Carlo graph search (POMCGS) to solve large POMDPs offline. Different from many online POMDP methods, which progressively develop a tree while performing (Monte-Carlo) simulations, POMCGS folds this search tree on the fly to construct a policy graph, so that computations can be drastically reduced, and users can analyze and validate the policy prior to embedding and executing it. Moreover, POMCGS, together with action progressive widening and observation clustering methods provided in this article, is able to address certain continuous POMDPs. Through experiments, we demonstrate that POMCGS can generate policies on the most challenging POMDPs, which cannot be computed by previous offline algorithms, and these policies' values are competitive compared with the state-of-the-art online POMDP algorithms.
- Abstract(参考訳): 現在、大規模な部分的に観測可能なマルコフ決定プロセス(POMDP)は、しばしば計画と実行フェーズをインターリーブするサンプリングベースのオンライン手法によって解決されている。
しかし、事前計算されたオフラインポリシーは、時間やエネルギーの制約のあるPOMDPアプリケーションでより望ましい。
しかし、従来のオフラインアルゴリズムでは、大規模なPOMDPにスケールアップすることはできない。
本稿では,大規模なPOMDPをオフラインで解くために,部分的に観測可能なモンテカルログラフ探索法(POMCGS)を提案する。
モンテカルロ(Monte-Carlo)シミュレーションを実行しながら木を段階的に開発する多くのオンラインPOMDP手法とは異なり、POMCGSは、この探索木をその場で折り畳み、ポリシーグラフを構築する。
さらに, アクションプログレッシブ・ワイドニング法や観測クラスタリング法とともに, 一定の連続的なPMDPに対処することが可能である。
実験により,POMCGSは従来のオフラインアルゴリズムでは計算できない,最も困難なPOMDPのポリシーを生成することができ,これらのポリシーの値は最先端のオンラインPOMDPアルゴリズムと競合することを示した。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - On-Line Policy Iteration for Infinite Horizon Dynamic Programming [0.0]
有限状態無限地平線割引動的プログラミングのためのオンラインポリシー反復(PI)アルゴリズムを提案する。
このアルゴリズムは有限個の段階に収束し、局所最適ポリシーの一種となる。
また、価値とポリシーを近似したオンラインPIアルゴリズムにも適している。
論文 参考訳(メタデータ) (2021-06-01T19:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。