論文の概要: Rollout Heuristics for Online Stochastic Contingent Planning
- arxiv url: http://arxiv.org/abs/2310.02345v1
- Date: Tue, 3 Oct 2023 18:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 18:14:29.604446
- Title: Rollout Heuristics for Online Stochastic Contingent Planning
- Title(参考訳): オンライン確率定数計画のためのロールアウトヒューリスティックス
- Authors: Oded Blumenthal, Guy Shani
- Abstract要約: 部分的に観測可能なモンテカルロ計画(英語版)は、次の行動を決定するオンラインアルゴリズムである。
POMDPは、良い見積もりを計算するためのロールアウトポリシーに大きく依存している。
本稿では,PMDPを緊急計画問題としてモデル化する。
- 参考スコア(独自算出の注目度): 6.185979230964809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially observable Markov decision processes (POMDP) are a useful model for
decision-making under partial observability and stochastic actions. Partially
Observable Monte-Carlo Planning is an online algorithm for deciding on the next
action to perform, using a Monte-Carlo tree search approach, based on the UCT
(UCB applied to trees) algorithm for fully observable Markov-decision
processes. POMCP develops an action-observation tree, and at the leaves, uses a
rollout policy to provide a value estimate for the leaf. As such, POMCP is
highly dependent on the rollout policy to compute good estimates, and hence
identify good actions. Thus, many practitioners who use POMCP are required to
create strong, domain-specific heuristics.
In this paper, we model POMDPs as stochastic contingent planning problems.
This allows us to leverage domain-independent heuristics that were developed in
the planning community. We suggest two heuristics, the first is based on the
well-known h_add heuristic from classical planning, and the second is computed
in belief space, taking the value of information into account.
- Abstract(参考訳): 部分観測可能なマルコフ決定プロセス(POMDP)は、部分観測可能性および確率的行動の下での意思決定に有用なモデルである。
部分的に観測可能なモンテカルロ計画(英語版)は、完全なマルコフ決定プロセスのためのUCBアルゴリズムに基づくモンテカルロ木探索手法を用いて、次の行動を決定するオンラインアルゴリズムである。
POMCPは行動観測木を開発し、葉っぱではロールアウトポリシーを使用して葉の値の推定を行う。
したがって、POMCPは良い見積もりを計算するためにロールアウトポリシーに強く依存しているため、良い行動を特定する。
したがって、POMCPを使用する多くの実践者は、強いドメイン固有のヒューリスティックを作る必要がある。
本稿では,POMDPを確率定数計画問題としてモデル化する。
これにより、計画コミュニティで開発されたドメインに依存しないヒューリスティックを活用できます。
1つは古典的計画からよく知られたh_addヒューリスティックに基づいており、2つ目は信念空間で計算され、情報の価値を考慮に入れている。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。
モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Planning in Observable POMDPs in Quasipolynomial Time [21.03037504572896]
我々は観測可能なPOMDPの計画のための準ポリノミカル時間アルゴリズムを開発した。
我々は、状態上のよく分断された分布が観察上のよく分断された分布をもたらすと仮定する。
観測可能なPOMDPの指数時間仮説の下での計画に適合する硬さを実証する。
論文 参考訳(メタデータ) (2022-01-12T23:16:37Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。