論文の概要: A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees
- arxiv url: http://arxiv.org/abs/2305.08049v1
- Date: Sun, 14 May 2023 03:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 18:02:59.337567
- Title: A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees
- Title(参考訳): 驚くほど単純な連続アクションpomdpソルバ:ポリシーツリー上の遅延クロスエントロピー探索
- Authors: Marcus Hoerger, Hanna Kurniawati, Dirk Kroese, Nan Ye
- Abstract要約: 我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
各計画段階では,ポリシーツリーの空間を探索するために遅延クロスエントロピー法を用いて,簡単なポリシー表現を提供する。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
- 参考スコア(独自算出の注目度): 7.713622698801596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Partially Observable Markov Decision Process (POMDP) provides a
principled framework for decision making in stochastic partially observable
environments. However, computing good solutions for problems with continuous
action spaces remains challenging. To ease this challenge, we propose a simple
online POMDP solver, called Lazy Cross-Entropy Search Over Policy Trees
(LCEOPT). At each planning step, our method uses a lazy Cross-Entropy method to
search the space of policy trees, which provide a simple policy representation.
Specifically, we maintain a distribution on promising finite-horizon policy
trees. The distribution is iteratively updated by sampling policies, evaluating
them via Monte Carlo simulation, and refitting them to the top-performing ones.
Our method is lazy in the sense that it exploits the policy tree representation
to avoid redundant computations in policy sampling, evaluation, and
distribution update. This leads to computational savings of up to two orders of
magnitude. Our LCEOPT is surprisingly simple as compared to existing
state-of-the-art methods, yet empirically outperforms them on several
continuous-action POMDP problems, particularly for problems with
higher-dimensional action spaces.
- Abstract(参考訳): 部分可観測マルコフ決定プロセス(POMDP)は確率的部分可観測環境における意思決定の原則的枠組みを提供する。
しかし、連続行動空間の問題に対する優れた解の計算は依然として困難である。
この課題を解消するために、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるシンプルなオンラインPOMDP解決器を提案する。
各計画段階では,ポリシーツリーの空間を探索するために遅延クロスエントロピー法を用いて,簡単なポリシー表現を提供する。
具体的には、有望な有限水平ポリシーツリーの分布を維持する。
この分布はサンプリングポリシによって反復的に更新され、モンテカルロシミュレーションによって評価され、最高性能のものに再適合する。
本手法はポリシツリー表現を利用して,ポリシーサンプリング,評価,分散更新における冗長な計算を回避するという意味では遅延である。
これにより、最大2桁の計算節約が可能となる。
我々のL CEOPTは、既存の最先端手法と比較して驚くほど単純であるが、特に高次元のアクション空間における問題に対して、いくつかの連続作用POMDP問題において、経験的に優れている。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - B$^3$RTDP: A Belief Branch and Bound Real-Time Dynamic Programming
Approach to Solving POMDPs [17.956744635160568]
我々は,Belief Branch and Bound RTDP (B$3$RTDP) と呼ぶRTDP-Belアルゴリズムの拡張を提案する。
我々のアルゴリズムは有界値関数表現を使い、これを2つの新しい方法で活用する。
B$3$RTDPは、既知のPOMDP問題に対する最先端のSARSOP解法よりも少ない時間で大きなリターンが得られることを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-22T21:42:59Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Towards Using Fully Observable Policies for POMDPs [0.0]
部分的に観測可能なマルコフ決定プロセス(POMDP)は多くの現実世界の問題に適用可能なフレームワークである。
そこで本研究では,POMDPをマルチモーダルな信念で解決する手法を提案する。
論文 参考訳(メタデータ) (2022-07-24T13:22:13Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。