論文の概要: BetaZero: Belief-State Planning for Long-Horizon POMDPs using Learned
Approximations
- arxiv url: http://arxiv.org/abs/2306.00249v3
- Date: Sat, 16 Dec 2023 19:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:42:05.676193
- Title: BetaZero: Belief-State Planning for Long-Horizon POMDPs using Learned
Approximations
- Title(参考訳): BetaZero:学習近似を用いた長距離PMDPの信頼状態計画
- Authors: Robert J. Moss, Anthony Corso, Jef Caers, Mykel J. Kochenderfer
- Abstract要約: 実世界の計画問題は、部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、近似手法を用いて解決されている。
高次元のPOMDPを現実的に解くために、最先端の手法では、オンラインプランニングを問題特異的で使用し、計画の地平線を小さくする。
高次元POMDPのための信念状態計画アルゴリズムであるBetaZeroを提案する。
- 参考スコア(独自算出の注目度): 40.740534524000324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world planning problems, including autonomous driving and sustainable
energy applications like carbon storage and resource exploration, have recently
been modeled as partially observable Markov decision processes (POMDPs) and
solved using approximate methods. To solve high-dimensional POMDPs in practice,
state-of-the-art methods use online planning with problem-specific heuristics
to reduce planning horizons and make the problems tractable. Algorithms that
learn approximations to replace heuristics have recently found success in
large-scale fully observable domains. The key insight is the combination of
online Monte Carlo tree search with offline neural network approximations of
the optimal policy and value function. In this work, we bring this insight to
partially observed domains and propose BetaZero, a belief-state planning
algorithm for high-dimensional POMDPs. BetaZero learns offline approximations
that replace heuristics to enable online decision making in long-horizon
problems. We address several challenges inherent in large-scale partially
observable domains; namely challenges of transitioning in stochastic
environments, prioritizing action branching with a limited search budget, and
representing beliefs as input to the network. To formalize the use of all
limited search information we train against a novel Q-weighted policy vector
target. We test BetaZero on various well-established benchmark POMDPs found in
the literature and a real-world, high-dimensional problem of critical mineral
exploration. Experiments show that BetaZero outperforms state-of-the-art POMDP
solvers on a variety of tasks.
- Abstract(参考訳): 自律走行や炭素貯蔵や資源探査といった持続可能なエネルギー応用を含む現実的な計画問題は、最近部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、近似手法を用いて解決されている。
高次元のPOMDPを現実的に解くために、最先端の手法では、問題固有のヒューリスティックを用いたオンラインプランニングを用いて、計画の地平線を小さくし、問題を抽出できるようにする。
ヒューリスティックスを置き換える近似を学習するアルゴリズムは、最近、大規模な完全可観測領域で成功を収めている。
重要な洞察は、オンラインモンテカルロ木探索と、最適ポリシーと値関数のオフラインニューラルネットワーク近似の組み合わせである。
本研究では,この知見を部分的に観察した領域に持ち込み,高次元pomdpに対する信念状態計画アルゴリズムであるbetazeroを提案する。
BetaZeroは、時間軸問題におけるオンライン意思決定を可能にするために、ヒューリスティックスを置き換えるオフライン近似を学習する。
大規模部分観測可能な領域に固有の課題として,確率的環境への移行,検索予算の制限による行動分岐の優先順位付け,ネットワークへの入力としての信念の表現,などがあげられる。
限定的な検索情報の利用を形式化するために、我々は新しいQ重み付けポリシーベクターターゲットに対して訓練を行う。
文献および臨界鉱物探査における実世界の高次元問題に見いだされた様々な確立されたベンチマークPMDP上でBetaZeroをテストする。
実験によれば、betazeroは様々なタスクで最先端のpomdpソルバを上回っている。
関連論文リスト
- Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Combining a Meta-Policy and Monte-Carlo Planning for Scalable Type-Based
Reasoning in Partially Observable Environments [21.548271801592907]
大規模部分観測可能な環境下での型に基づく推論のためのオンラインモンテカルロ木探索に基づく計画手法を提案する。
POTMMCPは、探索を指導し、信念を評価するための新しいメタ政治を取り入れており、より長い地平線に対してより効果的に探索することができる。
我々は,本手法が最適解に収束していることを示し,オンラインを多様なエージェント群に効果的に適応させることを実証的に実証した。
論文 参考訳(メタデータ) (2023-06-09T17:43:49Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - On Solving a Stochastic Shortest-Path Markov Decision Process as
Probabilistic Inference [5.517104116168873]
本稿では,確率的推論として,SSP MDP(General Decision Shortest-Path Markov Process)を提案する。
我々は不確実性の下での計画のオンラインとオフラインの手法について議論する。
論文 参考訳(メタデータ) (2021-09-13T11:07:52Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。