論文の概要: Simplified Belief-Dependent Reward MCTS Planning with Guaranteed Tree
Consistency
- arxiv url: http://arxiv.org/abs/2105.14239v1
- Date: Sat, 29 May 2021 07:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 20:50:56.652174
- Title: Simplified Belief-Dependent Reward MCTS Planning with Guaranteed Tree
Consistency
- Title(参考訳): ツリー一貫性を保証した信念依存報酬mts計画の簡略化
- Authors: Ori Sztyglic, Andrey Zhitnikov, Vadim Indelman
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)は解決が難しいことで知られている。
ほとんどの最先端のオンライン問題解決者はモンテカルロ木探索(MCTS)のアイデアを活用している。
本稿では,情報理論的な報奨を考慮したMCTSアルゴリズムの新たな変種を提案する。
- 参考スコア(独自算出の注目度): 11.688030627514532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) are notoriously hard
to solve. Most advanced state-of-the-art online solvers leverage ideas of Monte
Carlo Tree Search (MCTS). These solvers rapidly converge to the most promising
branches of the belief tree, avoiding the suboptimal sections. Most of these
algorithms are designed to utilize straightforward access to the state reward
and assume the belief-dependent reward is nothing but expectation over the
state reward. Thus, they are inapplicable to a more general and essential
setting of belief-dependent rewards. One example of such reward is differential
entropy approximated using a set of weighted particles of the belief. Such an
information-theoretic reward introduces a significant computational burden. In
this paper, we embed the paradigm of simplification into the MCTS algorithm. In
particular, we present Simplified Information-Theoretic Particle Filter Tree
(SITH-PFT), a novel variant to the MCTS algorithm that considers
information-theoretic rewards but avoids the need to calculate them completely.
We replace the costly calculation of information-theoretic rewards with
adaptive upper and lower bounds. These bounds are easy to calculate and
tightened only by the demand of our algorithm. Crucially, we guarantee
precisely the same belief tree and solution that would be obtained by MCTS,
which explicitly calculates the original information-theoretic rewards. Our
approach is general; namely, any converging to the reward bounds can be easily
plugged-in to achieve substantial speedup without any loss in performance.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は解決が難しいことで知られている。
最先端のオンラインソルバのほとんどは、モンテカルロ木探索(mcts)のアイデアを活用している。
これらの解法は急速に信仰木の最も有望な枝に収束し、最適部分を避ける。
これらのアルゴリズムのほとんどは、国家報酬への直接的なアクセスを利用し、信念に依存した報酬は国家報酬に対する期待にすぎないと仮定するように設計されている。
したがって、信念に依存した報酬のより一般的で本質的な設定には適用できない。
そのような報酬の1つの例は、信念の重み付き粒子の集合を用いて近似された微分エントロピーである。
このような情報理論的な報酬は、重要な計算負荷をもたらす。
本稿では,MCTSアルゴリズムに単純化のパラダイムを組み込む。
特に,情報理論的な報酬を考慮しつつ,それらを完全に計算する必要性を回避し,mtsアルゴリズムの新しい変種であるsith-pft(simplify information-theoretic particle filter tree)を提案する。
情報理論的報酬のコスト計算を適応的上界と下界に置き換える。
これらの境界は計算が容易で,アルゴリズムの要求によってのみ制限される。
重要なことは、MCTSが得るものと全く同じ信念木と解を保証し、元の情報理論の報酬を明示的に計算する。
我々のアプローチは一般に、報酬境界への収束は容易にプラグインでき、性能を損なうことなくかなりのスピードアップを達成できる。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - No Compromise in Solution Quality: Speeding Up Belief-dependent Continuous POMDPs via Adaptive Multilevel Simplification [6.300736240833814]
一般的な信念に依存した報酬を持つ継続的POMDPは、オンラインでの解決が難しいことで知られている。
与えられた外部構築された信条木の設定に対する適応的多レベル単純化の完全証明可能な理論を提案する。
我々は,信念に依存した報酬で,POMDPのオンラインプランニングを高速化する3つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T10:59:22Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Towards Theoretical Understanding of Inverse Reinforcement Learning [45.3190496371625]
逆強化学習(IRL)は、専門家が示す振る舞いを正当化する報酬関数を回復するアルゴリズムの強力なファミリーである。
本稿では、生成モデルを用いた有限水平問題の場合のIRLの理論ギャップを解消する。
論文 参考訳(メタデータ) (2023-04-25T16:21:10Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Online POMDP Planning via Simplification [10.508187462682306]
信念依存報酬を考慮したPOMDP計画への新しいアプローチを開発しています。
我々のアプローチは、元の問題の最適解を見つけることは保証されているが、かなりのスピードアップがある。
これらの境界と単純化がサンプル数の減少に対応し,計算速度が大幅に向上するシミュレーション手法を検証した。
論文 参考訳(メタデータ) (2021-05-11T18:46:08Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - On Effective Parallelization of Monte Carlo Tree Search [51.15940034629022]
モンテカルロ木探索(MCTS)は、探索木を構築するためにかなりの数のロールアウトを必要とするため、計算コストがかかる。
効果的な並列MCTSアルゴリズムを設計する方法は、体系的に研究されておらず、まだよく分かっていない。
我々は,より効率的な並列MCTSアルゴリズムの設計に,提案する必要条件をどのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-15T21:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。