論文の概要: Monte-Carlo Tree Search as Regularized Policy Optimization
- arxiv url: http://arxiv.org/abs/2007.12509v1
- Date: Fri, 24 Jul 2020 13:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:03:01.548035
- Title: Monte-Carlo Tree Search as Regularized Policy Optimization
- Title(参考訳): 正規化政策最適化としてのモンテカルロ木探索
- Authors: Jean-Bastien Grill, Florent Altch\'e, Yunhao Tang, Thomas Hubert,
Michal Valko, Ioannis Antonoglou, R\'emi Munos
- Abstract要約: 我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
- 参考スコア(独自算出の注目度): 47.541849128047865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The combination of Monte-Carlo tree search (MCTS) with deep reinforcement
learning has led to significant advances in artificial intelligence. However,
AlphaZero, the current state-of-the-art MCTS algorithm, still relies on
handcrafted heuristics that are only partially understood. In this paper, we
show that AlphaZero's search heuristics, along with other common ones such as
UCT, are an approximation to the solution of a specific regularized policy
optimization problem. With this insight, we propose a variant of AlphaZero
which uses the exact solution to this policy optimization problem, and show
experimentally that it reliably outperforms the original algorithm in multiple
domains.
- Abstract(参考訳): モンテカルロ木探索(MCTS)と深い強化学習の組み合わせは、人工知能に大きな進歩をもたらした。
しかし、現在最先端のMCTSアルゴリズムであるAlphaZeroは、部分的にしか理解されていない手作りのヒューリスティックに依存している。
本稿では,AlphaZero の探索ヒューリスティックスと UCT などの一般的な手法が,特定の正規化ポリシ最適化問題の解の近似であることを示す。
そこで本研究では,このポリシ最適化問題に対する厳密な解を用いたAlphaZeroの変種を提案するとともに,元となるアルゴリズムを複数の領域で確実に上回っていることを示す。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Socio-cognitive Optimization of Time-delay Control Problems using
Evolutionary Metaheuristics [89.24951036534168]
メタヒューリスティックス(Metaheuristics)は、古典的なアプローチでは解決できない難解な問題を解くために使用される普遍的な最適化アルゴリズムである。
本稿では,キャストに基づく新しい社会認知メタヒューリスティックの構築を目標とし,このアルゴリズムのいくつかのバージョンを時間遅延システムモデルの最適化に適用する。
論文 参考訳(メタデータ) (2022-10-23T22:21:10Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - CITS: Coherent Ising Tree Search Algorithm Towards Solving Combinatorial
Optimization Problems [0.0]
本稿では、マルコフ連鎖からSAに基づく奥行き制限木への探索空間の拡大による探索アルゴリズムを提案する。
それぞれのイテレーションにおいて、このアルゴリズムは、先を見据えて、木に沿って探索することで、実現可能な探索空間内で最高の準最適解を選択する」。
以上の結果から,IsingのNP最適化問題に対する高次木探索戦略は,より少ないエポックの範囲で解決可能であることが示唆された。
論文 参考訳(メタデータ) (2022-03-09T10:07:26Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Monte-Carlo Graph Search for AlphaZero [15.567057178736402]
探索木を有向非巡回グラフに一般化する,新しい改良されたalphazero探索アルゴリズムを提案する。
評価では、チェスとクレイジーハウスでCrazyAraエンジンを使用して、これらの変更がAlphaZeroに大きな改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-12-20T22:51:38Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Exploring search space trees using an adapted version of Monte Carlo
tree search for combinatorial optimization problems [0.6882042556551609]
このアプローチでは,問題インスタンスの探索空間木を探索するアルゴリズムを用いる。
このアルゴリズムはモンテカルロ木探索(Monte Carlo tree search)をベースとしている。
論文 参考訳(メタデータ) (2020-10-22T08:33:58Z) - On the Convergence of Reinforcement Learning with Monte Carlo Exploring
Starts [5.137144629366217]
基本的なシミュレーションに基づく強化学習アルゴリズムはモンテカルロ探索州 (MCES) 法である。
最短経路問題としても知られる未計算コストの場合のこのアルゴリズムの収束性について検討する。
副作用として、近似によく用いられるスーパーマリンゲール収束定理のバージョンの証明も提供する。
論文 参考訳(メタデータ) (2020-07-21T16:19:09Z) - Convex Regularization in Monte-Carlo Tree Search [41.11958980731047]
モンテカルロ木探索(MCTS)における一般凸正則化器の利用に関する統一理論を導入する。
我々は,ポリシー更新の相対エントロピーに基づいて,MCTSの新たな正規化バックアップ演算子を導入するための理論的枠組みを利用する。
我々は,AlphaGoとAlphaZeroで提案された演算子を,次元性や分岐係数の増大の問題について実験的に評価した。
論文 参考訳(メタデータ) (2020-07-01T11:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。