論文の概要: Continuous Monte Carlo Graph Search
- arxiv url: http://arxiv.org/abs/2210.01426v1
- Date: Tue, 4 Oct 2022 07:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:49:43.197191
- Title: Continuous Monte Carlo Graph Search
- Title(参考訳): 連続モンテカルログラフ探索
- Authors: Amin Babadi, Yi Zhao, Juho Kannala, Alexander Ilin, Joni Pajarinen
- Abstract要約: 連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンライン計画への拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
CMCGSは、いくつかの複雑な連続DeepMind Control Suiteベンチマークと2Dナビゲーションタスクで比較方法より優れている。
- 参考スコア(独自算出の注目度): 79.0972258753576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many complex sequential decision making tasks, online planning is crucial
for high-performance. For efficient online planning, Monte Carlo Tree Search
(MCTS) employs a principled mechanism for trading off between exploration and
exploitation. MCTS outperforms comparison methods in various discrete decision
making domains such as Go, Chess, and Shogi. Following, extensions of MCTS to
continuous domains have been proposed. However, the inherent high branching
factor and the resulting explosion of search tree size is limiting existing
methods. To solve this problem, this paper proposes Continuous Monte Carlo
Graph Search (CMCGS), a novel extension of MCTS to online planning in
environments with continuous state and action spaces. CMCGS takes advantage of
the insight that, during planning, sharing the same action policy between
several states can yield high performance. To implement this idea, at each time
step CMCGS clusters similar states into a limited number of stochastic action
bandit nodes, which produce a layered graph instead of an MCTS search tree.
Experimental evaluation with limited sample budgets shows that CMCGS
outperforms comparison methods in several complex continuous DeepMind Control
Suite benchmarks and a 2D navigation task.
- Abstract(参考訳): 多くの複雑な意思決定タスクにおいて、オンラインプランニングはハイパフォーマンスに不可欠である。
効率的なオンラインプランニングのために、Monte Carlo Tree Search (MCTS)は、探索とエクスプロイトの間のトレードオフに原則化されたメカニズムを採用している。
mcts は go や chess 、shogi といった様々な個別意思決定領域で比較手法よりも優れている。
その後、連続領域へのmctsの拡張が提案されている。
しかし、本質的に高い分岐率と探索木の大きさの爆発は、既存の手法を制限している。
そこで本稿では,mctsのオンライン計画への新たな拡張である連続モンテカルログラフ探索(cmcgs)を提案する。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
このアイデアを実現するため、MCGSは各ステップで同様の状態を有限数の確率的行動帯域ノードにクラスタリングし、MCTS検索ツリーの代わりに階層グラフを生成する。
CMCGSはいくつかの複雑な連続DeepMind Control Suiteベンチマークと2次元ナビゲーションタスクにおいて比較手法よりも優れていた。
関連論文リスト
- Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization [18.25487451605638]
状態占有度を正則化した政策最適化に基づく木探索アルゴリズムを導出し,それをボリュームMCTSと呼ぶ。
本研究では,この状態占有率の正規化目標に対する近似解として,カウントベース探索とサンプリングベース動作計画が導出可能であることを示す。
我々は,いくつかのロボットナビゲーション問題に対して本手法を試行し,Volume-MCTSがAlphaZeroより優れており,長期探査特性が著しく向上していることを見出した。
論文 参考訳(メタデータ) (2024-07-07T22:58:52Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Combining a Meta-Policy and Monte-Carlo Planning for Scalable Type-Based
Reasoning in Partially Observable Environments [21.548271801592907]
大規模部分観測可能な環境下での型に基づく推論のためのオンラインモンテカルロ木探索に基づく計画手法を提案する。
POTMMCPは、探索を指導し、信念を評価するための新しいメタ政治を取り入れており、より長い地平線に対してより効果的に探索することができる。
我々は,本手法が最適解に収束していることを示し,オンラインを多様なエージェント群に効果的に適応させることを実証的に実証した。
論文 参考訳(メタデータ) (2023-06-09T17:43:49Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - SimCS: Simulation for Domain Incremental Online Continual Segmentation [60.18777113752866]
既存の継続学習アプローチは、主にクラス増分設定における画像分類に焦点を当てている。
シミュレーションデータを用いて連続学習を規則化するパラメータフリー手法であるSimCSを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:17:33Z) - TaSPM: Targeted Sequential Pattern Mining [53.234101208024335]
本稿では,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。
また,マイニングプロセスにおける無意味な操作を減らすために,いくつかのプルーニング戦略を提案する。
実験の結果,新たなターゲットマイニングアルゴリズムであるTaSPMは実行時間を短縮し,メモリ消費を低減できることがわかった。
論文 参考訳(メタデータ) (2022-02-26T17:49:47Z) - Variational Combinatorial Sequential Monte Carlo Methods for Bayesian
Phylogenetic Inference [4.339931151475307]
Vari Combinatorial Monte Carlo (VCSMC) は複雑な構造について学習するための変分探索を確立する強力なフレームワークである。
本稿では,VCSMC と CSMC が,従来のタスクよりも高い確率空間を探索できることを示す。
論文 参考訳(メタデータ) (2021-05-31T19:44:24Z) - Scalable Anytime Planning for Multi-Agent MDPs [37.69939216970677]
動的協調を必要とする大規模マルチエージェント連続的決定問題に対するスケーラブルな木探索計画アルゴリズムを提案する。
提案アルゴリズムは,モンテカルロ木探索 (MCTS) を用いたオンライン計画,協調グラフを用いた局所エージェント相互作用の因子表現,および協調行動選択のための反復マックスプラス法からなる。
論文 参考訳(メタデータ) (2021-01-12T22:50:17Z) - Parallelization of Monte Carlo Tree Search in Continuous Domains [2.658812114255374]
Monte Carlo Tree Search (MCTS)は、Goやチェス、Atariといったドメインの課題を解決できることが証明されている。
私たちの仕事は既存の並列化戦略に基づいており、それらを継続的ドメインに拡張しています。
論文 参考訳(メタデータ) (2020-03-30T18:43:59Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。