論文の概要: Bayesian optimization for backpropagation in Monte-Carlo tree search
- arxiv url: http://arxiv.org/abs/2001.09325v1
- Date: Sat, 25 Jan 2020 14:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 23:57:59.391362
- Title: Bayesian optimization for backpropagation in Monte-Carlo tree search
- Title(参考訳): モンテカルロ木探索におけるバックプロパゲーションのベイズ最適化
- Authors: Yueqin Li and Nengli Lim
- Abstract要約: バックプロパゲーション戦略を改善するための従来の試みを一般化した,Softmax MCTS と Monotone MCTS の2つの手法を提案する。
提案手法が従来の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In large domains, Monte-Carlo tree search (MCTS) is required to estimate the
values of the states as efficiently and accurately as possible. However, the
standard update rule in backpropagation assumes a stationary distribution for
the returns, and particularly in min-max trees, convergence to the true value
can be slow because of averaging. We present two methods, Softmax MCTS and
Monotone MCTS, which generalize previous attempts to improve upon the
backpropagation strategy. We demonstrate that both methods reduce to finding
optimal monotone functions, which we do so by performing Bayesian optimization
with a Gaussian process (GP) prior. We conduct experiments on computer Go,
where the returns are given by a deep value neural network, and show that our
proposed framework outperforms previous methods.
- Abstract(参考訳): 大きなドメインでは、モンテカルロ木探索 (MCTS) が、状態の値を可能な限り効率的に正確に推定するために必要である。
しかし、バックプロパゲーションにおける標準更新規則は、リターンの定常分布を仮定しており、特にmin-max木では、平均化のために真の値への収束が遅くなる可能性がある。
バックプロパゲーション戦略を改善するための従来の試みを一般化した,Softmax MCTS と Monotone MCTS の2つの手法を提案する。
両手法がガウス過程(GP)を用いてベイズ最適化を行うことにより,最適単調関数の発見に還元されることを実証する。
また,提案手法が従来の手法よりも優れていることを示す。
関連論文リスト
- Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Sample-and-Bound for Non-Convex Optimization [18.30858789210194]
我々はモンテカルロのベンチマークに適応して効率を向上する非次元目的最適化のための新しいサンプリング手法を提案する。
提案する高次ベースラインおよび競合ベンチマークアルゴリズムを積極的に評価する。
論文 参考訳(メタデータ) (2024-01-09T20:45:47Z) - Improving sample efficiency of high dimensional Bayesian optimization
with MCMC [7.241485121318798]
本稿ではマルコフ・チェイン・モンテカルロに基づく新しい手法を提案する。
提案アルゴリズムのMetropolis-HastingsとLangevin Dynamicsの両バージョンは、高次元逐次最適化および強化学習ベンチマークにおいて最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-01-05T05:56:42Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Towards Practical Preferential Bayesian Optimization with Skew Gaussian
Processes [8.198195852439946]
本稿では,信頼度が2対比較に限定される優先ベイズ最適化(BO)について検討する。
優越性BOの重要な課題は、優越性ガウス過程(GP)モデルを用いてフレキシブルな選好構造を表現することである。
本研究では,高い計算効率と低いサンプル複雑性を両立させる新しい手法を開発し,その効果を広範囲な数値実験により実証する。
論文 参考訳(メタデータ) (2023-02-03T03:02:38Z) - Monte Carlo Tree Descent for Black-Box Optimization [10.698553177585973]
我々は、より高速な最適化のためにサンプルベース降下をさらに統合する方法を研究する。
我々は,モンテカルロ探索木の拡張手法を,頂点における新しい降下法を用いて設計する。
提案アルゴリズムは,多くの挑戦的ベンチマーク問題において,最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-01T22:45:10Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Stochastic Optimization Forests [60.523606291705214]
標準的なランダムな森林アルゴリズムのように予測精度を向上させるために分割するのではなく、分割を選択した木を栽培し、下流の意思決定品質を直接最適化することで、森林決定政策の訓練方法を示す。
概略分割基準は、各候補分割に対して正確に最適化された森林アルゴリズムに近い性能を保ちながら、100倍のランニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-08-17T16:56:06Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。