論文の概要: Convex Hull Monte-Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2003.04445v2
- Date: Mon, 23 Mar 2020 11:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:51:40.728204
- Title: Convex Hull Monte-Carlo Tree Search
- Title(参考訳): 凸包型モンテカルロ木探索
- Authors: Michael Painter, Bruno Lacerda and Nick Hawes
- Abstract要約: 本研究は,モンテカルロの環境におけるエージェントの計画について,複数の目的について検討する。
実験に基づくHuristic Tree Search と Convex Hull Value Iteration (CHVI) に基づく Convex Hull Monte-Carlo Tree-Search (CHMCTS) フレームワークを提案する。
我々は, 汎用深海宝の環境を用いて, Zooming CHMCTS が, 与えられた計算予算においてCHVI よりも精度良く, サブ線形の文脈的後悔を達成できることを実証した。
- 参考スコア(独自算出の注目度): 8.959391124399925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates Monte-Carlo planning for agents in stochastic
environments, with multiple objectives. We propose the Convex Hull Monte-Carlo
Tree-Search (CHMCTS) framework, which builds upon Trial Based Heuristic Tree
Search and Convex Hull Value Iteration (CHVI), as a solution to multi-objective
planning in large environments. Moreover, we consider how to pose the problem
of approximating multiobjective planning solutions as a contextual multi-armed
bandits problem, giving a principled motivation for how to select actions from
the view of contextual regret. This leads us to the use of Contextual Zooming
for action selection, yielding Zooming CHMCTS. We evaluate our algorithm using
the Generalised Deep Sea Treasure environment, demonstrating that Zooming
CHMCTS can achieve a sublinear contextual regret and scales better than CHVI on
a given computational budget.
- Abstract(参考訳): 本研究は,複数の目的を持った確率環境におけるエージェントのモンテカルロ計画について検討する。
本研究では,大規模環境における多目的計画の解決策として,Trial Based Heuristic Tree Search と Convex Hull Value Iteration (CHVI) をベースにした Convex Hull Monte-Carlo Tree-Search (CHMCTS) フレームワークを提案する。
さらに,多目的計画ソリューションを文脈的多武装バンディット問題として近似する問題を提起する方法を考察し,文脈的後悔の観点から行動選択の原則的動機付けを与える。
これにより、アクション選択にContextual Zoomingを使用することで、Zooming CHMCTSが得られます。
我々は, 汎用深海宝の環境を用いて, Zooming CHMCTS が, 与えられた計算予算においてCHVI よりも精度良く, サブ線形の文脈的後悔を達成できることを実証した。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment [0.0]
Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。
本稿では,古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
論文 参考訳(メタデータ) (2024-09-25T05:04:53Z) - Solving Stochastic Orienteering Problems with Chance Constraints Using a GNN Powered Monte Carlo Tree Search [3.3088495893219885]
本稿では,モンテカルロ木探索法(MCTS)を提案する。
割り当てられた旅行予算を順守しながら、アルゴリズムは、旅行コストを発生させながら収集された報酬を最大化する。
トレーニングデータセットの特性を超えて、このアプローチがいかに一般化できるかを実証する。
論文 参考訳(メタデータ) (2024-09-06T23:31:01Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Diverse, Top-k, and Top-Quality Planning Over Simulators [9.924007495979582]
本稿ではモンテカルロ木探索(MCTS)を用いた新しい代替手法を提案する。
本稿では,事前生成した探索木から最優先の順序で計画の有界集合を抽出する手法と,探索木を通る経路の相対的品質を評価する指標について述べる。
提案手法は,古典的プランナが適用できない領域において,多様かつ高品質なプランセットを生成することができることを示す。
論文 参考訳(メタデータ) (2023-08-25T02:55:19Z) - Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-04T05:21:36Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Limited depth bandit-based strategy for Monte Carlo planning in
continuous action spaces [4.1208902102156015]
本稿では,階層最適化(HOO)アルゴリズムの限界深度変種であるLD-HOOを提案する。
提案アルゴリズムは,より高速で,よりメモリ効率のよいオリジナルのHOOと同様の累積的後悔を示す。
次に,最適制御問題に対するLD-HOOに基づくモンテカルロ木探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-29T17:30:01Z) - Bayesian Optimized Monte Carlo Planning [34.8909579244631]
モンテカルロ木探索は、行動空間からサンプリングし、ポリシー探索木を構築することにより、拡張性の向上を試みる。
ベイズ最適化に基づく効率的な行動サンプリング法を提案する。
提案手法はBayesian Optimized Monte Carlo Planningと呼ばれる新しいオンライン木探索アルゴリズムに実装されている。
論文 参考訳(メタデータ) (2020-10-07T18:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。