論文の概要: BetaZero: Belief-State Planning for Long-Horizon POMDPs using Learned
Approximations
- arxiv url: http://arxiv.org/abs/2306.00249v2
- Date: Fri, 2 Jun 2023 22:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 00:21:09.848967
- Title: BetaZero: Belief-State Planning for Long-Horizon POMDPs using Learned
Approximations
- Title(参考訳): BetaZero:学習近似を用いた長距離PMDPの信頼状態計画
- Authors: Robert J. Moss, Anthony Corso, Jef Caers, Mykel J. Kochenderfer
- Abstract要約: 我々は,正確な信念モデルに基づくPOMDPの信念状態計画アルゴリズムであるBetaZeroを提案する。
実験の結果、BetaZeroは最先端のPOMDPタスクより優れています。
- 参考スコア(独自算出の注目度): 33.470486257476544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world planning problems$\unicode{x2014}$including autonomous driving and
sustainable energy applications like carbon storage and resource
exploration$\unicode{x2014}$have recently been modeled as partially observable
Markov decision processes (POMDPs) and solved using approximate methods. To
solve high-dimensional POMDPs in practice, state-of-the-art methods use online
planning with problem-specific heuristics to reduce planning horizons and make
the problems tractable. Algorithms that learn approximations to replace
heuristics have recently found success in large-scale problems in the fully
observable domain. The key insight is the combination of online Monte Carlo
tree search with offline neural network approximations of the optimal policy
and value function. In this work, we bring this insight to partially observed
domains and propose BetaZero, a belief-state planning algorithm for POMDPs.
BetaZero learns offline approximations based on accurate belief models to
enable online decision making in long-horizon problems. We address several
challenges inherent in large-scale partially observable domains; namely
challenges of transitioning in stochastic environments, prioritizing action
branching with limited search budget, and representing beliefs as input to the
network. We apply BetaZero to various well-established benchmark POMDPs found
in the literature. As a real-world case study, we test BetaZero on the
high-dimensional geological problem of critical mineral exploration.
Experiments show that BetaZero outperforms state-of-the-art POMDP solvers on a
variety of tasks.
- Abstract(参考訳): 実世界の計画問題$\unicode{x2014}$には、炭素貯蔵や資源探索のような自律運転および持続可能なエネルギーアプリケーションを含む$\unicode{x2014}$haveは、最近部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、近似手法を用いて解決された。
高次元のPOMDPを現実的に解くために、最先端の手法では、問題固有のヒューリスティックを用いたオンラインプランニングを用いて、計画の地平線を小さくし、問題を抽出できるようにする。
ヒューリスティックスを置き換える近似を学習するアルゴリズムは、最近完全に観測可能な領域における大規模問題で成功した。
重要な洞察は、オンラインモンテカルロ木探索と、最適ポリシーと値関数のオフラインニューラルネットワーク近似の組み合わせである。
本研究では、この知見を部分的に観測された領域に適用し、POMDPの信念状態計画アルゴリズムであるBetaZeroを提案する。
BetaZeroは、正確な信念モデルに基づいてオフライン近似を学習し、長期にわたる問題のオンライン意思決定を可能にする。
具体的には, 確率的環境への遷移, 探索予算の制限による行動分岐の優先順位付け, ネットワークへの入力としての信念の表現などである。
文献で見いだされた様々なよく確立されたベンチマークPMDPにBetaZeroを適用する。
実世界のケーススタディとして, 臨界鉱物探査の高次元地質問題についてbetazeroを検証した。
実験によれば、betazeroは様々なタスクで最先端のpomdpソルバを上回っている。
関連論文リスト
- Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Combining a Meta-Policy and Monte-Carlo Planning for Scalable Type-Based
Reasoning in Partially Observable Environments [21.548271801592907]
大規模部分観測可能な環境下での型に基づく推論のためのオンラインモンテカルロ木探索に基づく計画手法を提案する。
POTMMCPは、探索を指導し、信念を評価するための新しいメタ政治を取り入れており、より長い地平線に対してより効果的に探索することができる。
我々は,本手法が最適解に収束していることを示し,オンラインを多様なエージェント群に効果的に適応させることを実証的に実証した。
論文 参考訳(メタデータ) (2023-06-09T17:43:49Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - On Solving a Stochastic Shortest-Path Markov Decision Process as
Probabilistic Inference [5.517104116168873]
本稿では,確率的推論として,SSP MDP(General Decision Shortest-Path Markov Process)を提案する。
我々は不確実性の下での計画のオンラインとオフラインの手法について議論する。
論文 参考訳(メタデータ) (2021-09-13T11:07:52Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。