Fugu-MT 論文翻訳(概要): Monte Carlo Search Algorithms Discovering Monte Carlo Tree Search Exploration Terms

論文の概要: Monte Carlo Search Algorithms Discovering Monte Carlo Tree Search Exploration Terms

arxiv url: http://arxiv.org/abs/2404.09304v1
Date: Sun, 14 Apr 2024 17:06:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 14:38:22.282190
Title: Monte Carlo Search Algorithms Discovering Monte Carlo Tree Search Exploration Terms
Title（参考訳）: モンテカルロ木探索用語を探索するモンテカルロ探索アルゴリズム
Authors: Tristan Cazenave,
Abstract要約: 最適化されたモンテカルロ木探索アルゴリズムはPUCTとSHUSSである。 32評価の小さな探索予算に対して、発見されたルート探索条件は両方のアルゴリズムを競合させる。
参考スコア（独自算出の注目度）: 4.561007128508218
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Monte Carlo Tree Search and Monte Carlo Search have good results for many combinatorial problems. In this paper we propose to use Monte Carlo Search to design mathematical expressions that are used as exploration terms for Monte Carlo Tree Search algorithms. The optimized Monte Carlo Tree Search algorithms are PUCT and SHUSS. We automatically design the PUCT and the SHUSS root exploration terms. For small search budgets of 32 evaluations the discovered root exploration terms make both algorithms competitive with usual PUCT.
Abstract（参考訳）: モンテカルロ木探索とモンテカルロ探索は多くの組合せ問題に対して良い結果が得られる。本稿ではモンテカルロ探索を用いてモンテカルロ木探索アルゴリズムの探索語として用いられる数式を設計する。最適化されたモンテカルロ木探索アルゴリズムはPUCTとSHUSSである。 PUCTとSHUSSのルート探索用語を自動設計する。 32の評価の小さな探索予算に対して、発見されたルート探索用語は、両方のアルゴリズムを通常のPUCTと競合させる。

関連論文リスト

Monte Carlo Graph Coloring [3.435169201271934]
グラフ色付けはおそらく、グラフアルゴリズムにおいて最も研究され有名な問題の1つである。グラフカラー化にモンテカルロ探索を効果的に適用する方法を示す。
論文参考訳（メタデータ） (2025-04-04T08:57:01Z)
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.46681227410038]
効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
論文参考訳（メタデータ） (2024-12-24T10:07:51Z)
RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [65.5353313491402]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行うRethinkMCTSを紹介する。我々は,検索中の誤った思考を洗練させるために,微動コード実行フィードバックからの言語フィードバックを構築した。 RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインよりも優れていることを実証する。
論文参考訳（メタデータ） (2024-09-15T02:07:28Z)
Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization [18.25487451605638]
状態占有度を正則化した政策最適化に基づく木探索アルゴリズムを導出し,それをボリュームMCTSと呼ぶ。本研究では,この状態占有率の正規化目標に対する近似解として,カウントベース探索とサンプリングベース動作計画が導出可能であることを示す。我々は,いくつかのロボットナビゲーション問題に対して本手法を試行し,Volume-MCTSがAlphaZeroより優れており,長期探査特性が著しく向上していることを見出した。
論文参考訳（メタデータ） (2024-07-07T22:58:52Z)
LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。 GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文参考訳（メタデータ） (2024-06-29T05:14:04Z)
Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文参考訳（メタデータ） (2023-07-25T12:33:53Z)
CrossBeam: Learning to Search in Bottom-Up Program Synthesis [51.37514793318815]
ボトムアップ合成のためのハンズオン検索ポリシーを学習するためのニューラルネットワークのトレーニングを提案する。私たちのアプローチは、CrossBeamと呼ばれ、ニューラルモデルを使用して、以前に探索されたプログラムを新しいプログラムに組み合わせる方法を選択します。我々はCrossBeamが効率的に検索することを学び、最先端技術と比較してプログラム空間のより小さな部分を探索する。
論文参考訳（メタデータ） (2022-03-20T04:41:05Z)
Batch Monte Carlo Tree Search [9.114710429587479]
この性質に基づいて,バッチ推論を用いたモンテカルロ木探索アルゴリズムを提案する。転置テーブルは推論の結果を含むが、検索ツリーはモンテカルロツリー検索の統計情報を含む。また、検索を改善する複数のアルゴリズムを分析することも提案している:$mu$ fpu、仮想平均、反復、第2の移動は続く。
論文参考訳（メタデータ） (2021-04-09T09:54:21Z)
Prioritized Architecture Sampling with Monto-Carlo Tree Search [54.72096546595955]
ワンショットニューラルアーキテクチャサーチ(NAS)法は,検索空間全体を1つのネットワークとして考えることにより,検索コストを大幅に削減する。本稿では,モンテカルロ木(MCT)をモデルとした探索空間を用いたモンテカルロ木探索(MCTS)に基づくサンプリング戦略について紹介する。公平な比較のために、CIFAR-10で評価されたマクロ検索空間、すなわちNAS-Bench-MacroのオープンソースNASベンチマークを構築する。
論文参考訳（メタデータ） (2021-03-22T15:09:29Z)
Monte-Carlo Graph Search for AlphaZero [15.567057178736402]
探索木を有向非巡回グラフに一般化する,新しい改良されたalphazero探索アルゴリズムを提案する。評価では、チェスとクレイジーハウスでCrazyAraエンジンを使用して、これらの変更がAlphaZeroに大きな改善をもたらすことを示す。
論文参考訳（メタデータ） (2020-12-20T22:51:38Z)
Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文参考訳（メタデータ） (2020-07-24T13:01:34Z)
Competing in a Complex Hidden Role Game with Information Set Monte Carlo Tree Search [0.0]
Information Set Monte Carlo Tree Search (ISMCTS) のアルゴリズムは、不完全な情報ゲームにおいてモンテカルロ法を用いて以前のアルゴリズムより優れている。本論文は,従来の隠蔽ロール機構とカードデッキのランダム性を組み合わせたソーシャル推論ボードゲームであるシークレットヒトラーに適用する。
論文参考訳（メタデータ） (2020-05-14T17:21:10Z)
Monte Carlo Game Solver [4.38602607138044]
オンラインでプレイアウトポリシーを学習し、Monte Carlo Tree Searchを利用する。モンテカルロ木の学習ポリシーと情報は、ゲームソルバの移動を順序付けするために使用される。
論文参考訳（メタデータ） (2020-01-15T00:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。