論文の概要: Warm-Start AlphaZero Self-Play Search Enhancements
- arxiv url: http://arxiv.org/abs/2004.12357v1
- Date: Sun, 26 Apr 2020 11:48:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 12:51:06.639703
- Title: Warm-Start AlphaZero Self-Play Search Enhancements
- Title(参考訳): ウォームスタートalphazeroのセルフプレイ検索機能強化
- Authors: Hui Wang, Mike Preuss, Aske Plaat
- Abstract要約: 近年、AlphaZeroは深い強化学習において目覚ましい成果を上げている。
本稿では,この冷間開始問題に対して,簡単な探索拡張を用いて対処する手法を提案する。
実験の結果,3つの異なる(小さな)ボードゲームにおけるベースラインプレーヤのパフォーマンスが向上することが示唆された。
- 参考スコア(独自算出の注目度): 5.096685900776467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, AlphaZero has achieved landmark results in deep reinforcement
learning, by providing a single self-play architecture that learned three
different games at super human level. AlphaZero is a large and complicated
system with many parameters, and success requires much compute power and
fine-tuning. Reproducing results in other games is a challenge, and many
researchers are looking for ways to improve results while reducing
computational demands. AlphaZero's design is purely based on self-play and
makes no use of labeled expert data ordomain specific enhancements; it is
designed to learn from scratch. We propose a novel approach to deal with this
cold-start problem by employing simple search enhancements at the beginning
phase of self-play training, namely Rollout, Rapid Action Value Estimate (RAVE)
and dynamically weighted combinations of these with the neural network, and
Rolling Horizon Evolutionary Algorithms (RHEA). Our experiments indicate that
most of these enhancements improve the performance of their baseline player in
three different (small) board games, with especially RAVE based variants
playing strongly.
- Abstract(参考訳): 最近のalphazeroは、スーパーヒューマンレベルで3つの異なるゲームを学習する単一のセルフプレイアーキテクチャを提供することで、深い強化学習によって目覚ましい結果を得ている。
AlphaZeroは多くのパラメータを持つ大規模で複雑なシステムであり、成功には多くの計算能力と微調整が必要である。
他のゲームで結果を再現することは困難であり、多くの研究者は計算要求を減らしながら結果を改善する方法を模索している。
AlphaZeroの設計は、純粋にセルフプレイに基づいており、ラベル付き専門家データやドメイン固有の拡張を使用せず、ゼロから学ぶように設計されている。
本稿では,このコールドスタート問題に対する新しいアプローチとして,ロールアウト,ラピッドアクション値推定(rave)および動的重み付けの組み合わせ,およびローリングホライズン進化アルゴリズム(rhea)という,自己プレイトレーニングの開始段階で単純な検索拡張を用いる手法を提案する。
実験の結果,これらの改良は3つの異なるボードゲーム,特にRAVEベースのバリエーションにおいて,ベースラインプレーヤのパフォーマンスを向上させることが示唆された。
関連論文リスト
- Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations [0.0]
強化学習(Reinforcement Learning, RL)は、多くのアプリケーション、特にゲームで広く使われている。
Google DeepMindはこの分野でイノベーションの先駆者であり、高度なAIモデルを作成するために強化学習アルゴリズムを使用している。
本稿では,アタリゲームと戦略ベースゲームにおける強化学習の意義について概説する。
論文 参考訳(メタデータ) (2025-02-14T17:06:34Z) - Lucy-SKG: Learning to Play Rocket League Efficiently Using Deep
Reinforcement Learning [0.0]
本稿では,Rocket Leagueをサンプル効率でプレイする方法を学習した強化学習ベースのモデルであるLucy-SKGを紹介する。
コントリビューションには、報酬分析と可視化ライブラリの開発、新しいパラメータ化可能な報酬形状関数、補助的ニューラルネットワークなどがある。
論文 参考訳(メタデータ) (2023-05-25T07:33:17Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - A Unified Approach to Reinforcement Learning, Quantal Response
Equilibria, and Two-Player Zero-Sum Games [104.3339905200105]
この研究は、ミラー降下と非ユークリッド近位勾配アルゴリズムにインスパイアされた、磁気ミラー降下と呼ばれるアルゴリズムを研究する。
我々の貢献は、2人のプレイヤーゼロサムゲームにおける平衡解法および強化学習へのアプローチとしての磁気ミラー降下の利点を実証することである。
論文 参考訳(メタデータ) (2022-06-12T19:49:14Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Adaptive Warm-Start MCTS in AlphaZero-like Deep Reinforcement Learning [5.55810668640617]
モンテカルロツリー探索のためのウォームスタート強化法を提案する。
私達は私達のアプローチが固定$Iprime$、特に「深い」戦術的な、ゲームのためによりよく働くことを示します。
alphazeroライクな深層強化学習は,適応的なロールアウトに基づくウォームスタートの恩恵を受ける。
論文 参考訳(メタデータ) (2021-05-13T08:24:51Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Chrome Dino Run using Reinforcement Learning [0.0]
我々は,Chrome Dino Runをプレイするエージェントをトレーニングするために,畳み込みニューラルネットワークとともに,最も人気のあるモデル強化学習アルゴリズムについて検討した。
我々は、Deep Q-Learning(深層Q-Learning)とPre expecteded SARSA(SARSA)という2つの時間差分アプローチを使用し、エージェントを訓練するためにDouble DQNモデルを実装した。
論文 参考訳(メタデータ) (2020-08-15T22:18:20Z) - Learning Compositional Neural Programs for Continuous Control [62.80551956557359]
スパース逆連続制御問題に対する新しい解法を提案する。
我々のソリューションはAlphaNPI-Xと呼ばれ、学習の3つの段階を含む。
我々はAlphaNPI-Xがスパース操作の課題に効果的に取り組むことを実証的に示す。
論文 参考訳(メタデータ) (2020-07-27T08:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。