論文の概要: Monte Carlo Planning in Hybrid Belief POMDPs
- arxiv url: http://arxiv.org/abs/2211.07735v1
- Date: Mon, 14 Nov 2022 20:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:28:23.580712
- Title: Monte Carlo Planning in Hybrid Belief POMDPs
- Title(参考訳): ハイブリッド信念PMDPにおけるモンテカルロ計画
- Authors: Moran Barenboim, Moshe Shienman and Vadim Indelman
- Abstract要約: 我々は,モンテカルロ木探索 (MCTS) アルゴリズムを用いてPOMDPを解くハイブリッドリーフモンテカルロ計画 (HB-MCP) を提案する。
仮説樹の成長を誘導するために, 上位信頼度(UCB)探索ボーナスをいかに活用できるかを示す。
そして、未解決のデータアソシエーションがマルチモーダルな信念の仮説に繋がる、高度にエイリアス化されたシミュレーション環境で、我々のアプローチを評価する。
- 参考スコア(独自算出の注目度): 7.928094304325113
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-world problems often require reasoning about hybrid beliefs, over both
discrete and continuous random variables. Yet, such a setting has hardly been
investigated in the context of planning. Moreover, existing online Partially
Observable Markov Decision Processes (POMDPs) solvers do not support hybrid
beliefs directly. In particular, these solvers do not address the added
computational burden due to an increasing number of hypotheses with the
planning horizon, which can grow exponentially. As part of this work, we
present a novel algorithm, Hybrid Belief Monte Carlo Planning (HB-MCP) that
utilizes the Monte Carlo Tree Search (MCTS) algorithm to solve a POMDP while
maintaining a hybrid belief. We illustrate how the upper confidence bound (UCB)
exploration bonus can be leveraged to guide the growth of hypotheses trees
alongside the belief trees. We then evaluate our approach in highly aliased
simulated environments where unresolved data association leads to multi-modal
belief hypotheses.
- Abstract(参考訳): 実世界の問題は、しばしば離散変数と連続変数の両方に対するハイブリッド信念についての推論を必要とする。
しかし、このような設定は計画の文脈ではほとんど調査されていない。
さらに、既存のオンライン部分可観測マルコフ決定プロセス(pomdps)ソルバは、ハイブリッド信念を直接サポートしない。
特に、これらの解法は、指数関数的に増大できる計画的地平線に関する仮説が増加するため、追加の計算負担に対処しない。
本研究の一環として, モンテカルロ木探索 (MCTS) アルゴリズムを用いて, ハイブリッド信念を維持しながらPOMDPを解く新しいアルゴリズム, モンテカルロ計画 (HB-MCP) を提案する。
本研究は, 仮説樹の成長を誘導するために, 上位信頼度(UCB)探索ボーナスを活用する方法について述べる。
次に,未解決のデータ関連がマルチモーダル信念仮説につながる高度にエイリアスされたシミュレーション環境でのアプローチを評価する。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - A Bayesian Approach to Online Planning [14.847090489758992]
モンテカルロの木探索とニューラルネットワークの組み合わせは、オンライン計画に革命をもたらした。
ネットワークのアウトプットに関する不確実性推定が計画の改善に有効かどうかを問う。
このような不確実な定量化を促進するためのベイズ計画手法を開発し、メタ推論文学から古典的な考え方に着想を得た。
論文 参考訳(メタデータ) (2024-06-04T08:33:17Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Combining a Meta-Policy and Monte-Carlo Planning for Scalable Type-Based
Reasoning in Partially Observable Environments [21.548271801592907]
大規模部分観測可能な環境下での型に基づく推論のためのオンラインモンテカルロ木探索に基づく計画手法を提案する。
POTMMCPは、探索を指導し、信念を評価するための新しいメタ政治を取り入れており、より長い地平線に対してより効果的に探索することができる。
我々は,本手法が最適解に収束していることを示し,オンラインを多様なエージェント群に効果的に適応させることを実証的に実証した。
論文 参考訳(メタデータ) (2023-06-09T17:43:49Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Cooperative Trajectory Planning in Uncertain Environments with Monte
Carlo Tree Search and Risk Metrics [2.658812114255374]
連続行動空間に対するモンテカルロ木探索に基づく既存の協調軌道計画手法を拡張した。
ルート信念状態の形で不確実性を明示的にモデル化し、そこから木の開始状態がサンプリングされる。
最終選択政策におけるリスクメトリクスの統合は、不確実な環境でのベースラインを一貫して上回ることを示すことができる。
論文 参考訳(メタデータ) (2022-03-09T00:14:41Z) - Adaptive Belief Discretization for POMDP Planning [7.508023795800546]
多くのPOMDPソルバは、信念空間を均一に識別し、(一般に不明な)カバー数の観点から計画誤差を与える。
適応的信念の識別方式を提案し,それに関連する計画誤差を与える。
私達は私達のアルゴリズムがさまざまなシナリオの最先端の技術と競争が高いことを証明します。
論文 参考訳(メタデータ) (2021-04-15T07:04:32Z) - Monte Carlo Information-Oriented Planning [6.0158981171030685]
rho-POMDPとして表現された情報収集問題を解決する方法について議論する。
我々はPOMCPアルゴリズムを用いてrho-POMDPのモンテカルロツリー探索を提案する。
論文 参考訳(メタデータ) (2021-03-21T09:09:27Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。