論文の概要: Adaptive Warm-Start MCTS in AlphaZero-like Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.06136v1
- Date: Thu, 13 May 2021 08:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:09:04.555521
- Title: Adaptive Warm-Start MCTS in AlphaZero-like Deep Reinforcement Learning
- Title(参考訳): AlphaZeroライクな深層強化学習における適応型ワームスタートMCTS
- Authors: Hui Wang and Mike Preuss and Aske Plaat
- Abstract要約: モンテカルロツリー探索のためのウォームスタート強化法を提案する。
私達は私達のアプローチが固定$Iprime$、特に「深い」戦術的な、ゲームのためによりよく働くことを示します。
alphazeroライクな深層強化学習は,適応的なロールアウトに基づくウォームスタートの恩恵を受ける。
- 参考スコア(独自算出の注目度): 5.55810668640617
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AlphaZero has achieved impressive performance in deep reinforcement learning
by utilizing an architecture that combines search and training of a neural
network in self-play. Many researchers are looking for ways to reproduce and
improve results for other games/tasks. However, the architecture is designed to
learn from scratch, tabula rasa, accepting a cold-start problem in self-play.
Recently, a warm-start enhancement method for Monte Carlo Tree Search was
proposed to improve the self-play starting phase. It employs a fixed parameter
$I^\prime$ to control the warm-start length. Improved performance was reported
in small board games. In this paper we present results with an adaptive switch
method. Experiments show that our approach works better than the fixed
$I^\prime$, especially for "deep," tactical, games (Othello and Connect Four).
We conjecture that the adaptive value for $I^\prime$ is also influenced by the
size of the game, and that on average $I^\prime$ will increase with game size.
We conclude that AlphaZero-like deep reinforcement learning benefits from
adaptive rollout based warm-start, as Rapid Action Value Estimate did for
rollout-based reinforcement learning 15 years ago.
- Abstract(参考訳): alphazeroは、ニューラルネットワークの検索とトレーニングを自己プレイで組み合わせることで、深層強化学習において素晴らしいパフォーマンスを達成している。
多くの研究者は、他のゲームやタスクの結果を再現し改善する方法を探している。
しかし、アーキテクチャはスクラッチから学習するために設計されており、セルフプレイでコールドスタート問題を受け入れる。
近年,モンテカルロ木探索の自己再生開始フェーズを改善するため,暖かく開始する手法が提案されている。
ウォームスタートの長さを制御するために固定パラメータ $i^\prime$ を用いる。
パフォーマンス向上は小さなボードゲームでも報告された。
本稿では,適応スイッチ方式を用いて結果を示す。
実験により、我々のアプローチは固定された$I^\prime$よりもうまく機能し、特に「深み」、戦術、ゲーム(オセロとコネクテッド・フォー)に対して有効であることが示された。
我々は、$I^\prime$の適応値もゲームのサイズに影響され、平均$I^\prime$はゲームサイズによって増加すると予想する。
適応的ロールアウトに基づくウォームスタートによるαzeroライクなディープ強化学習は,15年前のロールアウトベースの強化学習において,迅速なアクション値推定が有効であった。
関連論文リスト
- Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - A Ranking Game for Imitation Learning [22.028680861819215]
模倣を、$textitpolicy$と$textitreward$関数の間の2プレイヤーランキングベースのStackelbergゲームとして扱う。
このゲームは、オフラインの好みから学習する逆強化学習(IRL)法と方法の両方の多くのサブセットを含んでいる。
本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。
論文 参考訳(メタデータ) (2022-02-07T19:38:22Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - Warm-Start AlphaZero Self-Play Search Enhancements [5.096685900776467]
近年、AlphaZeroは深い強化学習において目覚ましい成果を上げている。
本稿では,この冷間開始問題に対して,簡単な探索拡張を用いて対処する手法を提案する。
実験の結果,3つの異なる(小さな)ボードゲームにおけるベースラインプレーヤのパフォーマンスが向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-26T11:48:53Z) - Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage
Decomposition [59.34067736545355]
有限水平型マルコフ決定過程(MDP)における強化学習問題を,S$状態,A$動作,エピソード長$H$を用いて検討した。
モデルフリーアルゴリズム UCB-Advantage を提案し、$T = KH$ および $K$ が再生すべきエピソード数である場合に $tildeO(sqrtH2SAT)$ regret を達成することを証明した。
論文 参考訳(メタデータ) (2020-04-21T14:00:06Z) - Analysis of Hyper-Parameters for Small Games: Iterations or Epochs in
Self-Play? [4.534822382040738]
セルフプレイでは、モンテカルロ木探索(Monte Carlo Tree Search)が深層ニューラルネットワークのトレーニングに使用され、木探索に使用される。
これらのパラメータがAlphaZeroのようなセルフプレイアルゴリズムのトレーニングにどのように貢献するかを評価する。
トレーニングが多すぎるとパフォーマンスが低下する、驚くべき結果が得られます。
論文 参考訳(メタデータ) (2020-03-12T19:28:48Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。