論文の概要: Convex Hull Monte-Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2003.04445v2
- Date: Mon, 23 Mar 2020 11:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:51:40.728204
- Title: Convex Hull Monte-Carlo Tree Search
- Title(参考訳): 凸包型モンテカルロ木探索
- Authors: Michael Painter, Bruno Lacerda and Nick Hawes
- Abstract要約: 本研究は,モンテカルロの環境におけるエージェントの計画について,複数の目的について検討する。
実験に基づくHuristic Tree Search と Convex Hull Value Iteration (CHVI) に基づく Convex Hull Monte-Carlo Tree-Search (CHMCTS) フレームワークを提案する。
我々は, 汎用深海宝の環境を用いて, Zooming CHMCTS が, 与えられた計算予算においてCHVI よりも精度良く, サブ線形の文脈的後悔を達成できることを実証した。
- 参考スコア(独自算出の注目度): 8.959391124399925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates Monte-Carlo planning for agents in stochastic
environments, with multiple objectives. We propose the Convex Hull Monte-Carlo
Tree-Search (CHMCTS) framework, which builds upon Trial Based Heuristic Tree
Search and Convex Hull Value Iteration (CHVI), as a solution to multi-objective
planning in large environments. Moreover, we consider how to pose the problem
of approximating multiobjective planning solutions as a contextual multi-armed
bandits problem, giving a principled motivation for how to select actions from
the view of contextual regret. This leads us to the use of Contextual Zooming
for action selection, yielding Zooming CHMCTS. We evaluate our algorithm using
the Generalised Deep Sea Treasure environment, demonstrating that Zooming
CHMCTS can achieve a sublinear contextual regret and scales better than CHVI on
a given computational budget.
- Abstract(参考訳): 本研究は,複数の目的を持った確率環境におけるエージェントのモンテカルロ計画について検討する。
本研究では,大規模環境における多目的計画の解決策として,Trial Based Heuristic Tree Search と Convex Hull Value Iteration (CHVI) をベースにした Convex Hull Monte-Carlo Tree-Search (CHMCTS) フレームワークを提案する。
さらに,多目的計画ソリューションを文脈的多武装バンディット問題として近似する問題を提起する方法を考察し,文脈的後悔の観点から行動選択の原則的動機付けを与える。
これにより、アクション選択にContextual Zoomingを使用することで、Zooming CHMCTSが得られます。
我々は, 汎用深海宝の環境を用いて, Zooming CHMCTS が, 与えられた計算予算においてCHVI よりも精度良く, サブ線形の文脈的後悔を達成できることを実証した。
関連論文リスト
- Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Decision Tree Search as a Markov Decision Problem [9.587070290189507]
教師付き学習タスクに最適な決定木を見つけることは、大規模に解決する上で難しい問題である。
近年、マルコフ決定問題 (MDP) としてこの問題の枠組みを定め、深層強化学習を用いてスケーリングに取り組むことが提案されている。
そこで我々は,全ての状態に対して生成する情報理論テスト生成関数を用いて,MDPの分解能を拡大する手法を提案する。
論文 参考訳(メタデータ) (2023-09-22T08:18:08Z) - Diverse, Top-k, and Top-Quality Planning Over Simulators [9.924007495979582]
本稿ではモンテカルロ木探索(MCTS)を用いた新しい代替手法を提案する。
本稿では,事前生成した探索木から最優先の順序で計画の有界集合を抽出する手法と,探索木を通る経路の相対的品質を評価する指標について述べる。
提案手法は,古典的プランナが適用できない領域において,多様かつ高品質なプランセットを生成することができることを示す。
論文 参考訳(メタデータ) (2023-08-25T02:55:19Z) - Combining a Meta-Policy and Monte-Carlo Planning for Scalable Type-Based
Reasoning in Partially Observable Environments [21.548271801592907]
大規模部分観測可能な環境下での型に基づく推論のためのオンラインモンテカルロ木探索に基づく計画手法を提案する。
POTMMCPは、探索を指導し、信念を評価するための新しいメタ政治を取り入れており、より長い地平線に対してより効果的に探索することができる。
我々は,本手法が最適解に収束していることを示し,オンラインを多様なエージェント群に効果的に適応させることを実証的に実証した。
論文 参考訳(メタデータ) (2023-06-09T17:43:49Z) - Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-04T05:21:36Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Limited depth bandit-based strategy for Monte Carlo planning in
continuous action spaces [4.1208902102156015]
本稿では,階層最適化(HOO)アルゴリズムの限界深度変種であるLD-HOOを提案する。
提案アルゴリズムは,より高速で,よりメモリ効率のよいオリジナルのHOOと同様の累積的後悔を示す。
次に,最適制御問題に対するLD-HOOに基づくモンテカルロ木探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-29T17:30:01Z) - Bayesian Optimized Monte Carlo Planning [34.8909579244631]
モンテカルロ木探索は、行動空間からサンプリングし、ポリシー探索木を構築することにより、拡張性の向上を試みる。
ベイズ最適化に基づく効率的な行動サンプリング法を提案する。
提案手法はBayesian Optimized Monte Carlo Planningと呼ばれる新しいオンライン木探索アルゴリズムに実装されている。
論文 参考訳(メタデータ) (2020-10-07T18:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。