論文の概要: Targeted Search Control in AlphaZero for Effective Policy Improvement
- arxiv url: http://arxiv.org/abs/2302.12359v1
- Date: Thu, 23 Feb 2023 22:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 15:11:18.971361
- Title: Targeted Search Control in AlphaZero for Effective Policy Improvement
- Title(参考訳): 効果的な政策改善のためのAlphaZeroにおけるターゲット探索制御
- Authors: Alexandre Trudeau, Michael Bowling
- Abstract要約: 我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
- 参考スコア(独自算出の注目度): 93.30151539224144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AlphaZero is a self-play reinforcement learning algorithm that achieves
superhuman play in chess, shogi, and Go via policy iteration. To be an
effective policy improvement operator, AlphaZero's search requires accurate
value estimates for the states appearing in its search tree. AlphaZero trains
upon self-play matches beginning from the initial state of a game and only
samples actions over the first few moves, limiting its exploration of states
deeper in the game tree. We introduce Go-Exploit, a novel search control
strategy for AlphaZero. Go-Exploit samples the start state of its self-play
trajectories from an archive of states of interest. Beginning self-play
trajectories from varied starting states enables Go-Exploit to more effectively
explore the game tree and to learn a value function that generalizes better.
Producing shorter self-play trajectories allows Go-Exploit to train upon more
independent value targets, improving value training. Finally, the exploration
inherent in Go-Exploit reduces its need for exploratory actions, enabling it to
train under more exploitative policies. In the games of Connect Four and 9x9
Go, we show that Go-Exploit learns with a greater sample efficiency than
standard AlphaZero, resulting in stronger performance against reference
opponents and in head-to-head play. We also compare Go-Exploit to KataGo, a
more sample efficient reimplementation of AlphaZero, and demonstrate that
Go-Exploit has a more effective search control strategy. Furthermore,
Go-Exploit's sample efficiency improves when KataGo's other innovations are
incorporated.
- Abstract(参考訳): AlphaZero (AlphaZero) は、チェス、ショギ、囲碁における超人的な遊びを実現する自己学習アルゴリズムである。
効果的なポリシー改善オペレータとして、alphazeroの検索には、検索ツリーに現れる状態の正確な値見積が必要である。
AlphaZeroは、ゲームの初期状態から始まるセルフプレイマッチをトレーニングし、最初の数回の動作でのみアクションをサンプリングし、ゲームツリー内のより深い状態の探索を制限する。
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
様々な開始状態から自己プレイの軌跡を始めることで、Go-Exploitはゲームツリーをより効果的に探索し、より一般化した値関数を学ぶことができる。
Go-Exploitは、より独立した価値目標をトレーニングし、価値トレーニングを改善する。
最後に、Go-Exploit固有の探索は探索行動の必要性を減らし、より搾取的な政策の下での訓練を可能にする。
Connect Four と 9x9 Go のゲームでは、Go-Exploit が標準の AlphaZero よりも高いサンプル効率で学習し、参照相手に対するパフォーマンスが向上し、ヘッド・ツー・ヘッドプレイが実現した。
また、より効率的なAlphaZeroの再実装であるKataGoとGo-Exploitを比較し、Go-Exploitがより効果的な検索制御戦略を持っていることを示す。
さらに、Go-Exploitのサンプル効率は、KataGoの他のイノベーションが組み込まれたときに改善される。
関連論文リスト
- AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - Adaptive Warm-Start MCTS in AlphaZero-like Deep Reinforcement Learning [5.55810668640617]
モンテカルロツリー探索のためのウォームスタート強化法を提案する。
私達は私達のアプローチが固定$Iprime$、特に「深い」戦術的な、ゲームのためによりよく働くことを示します。
alphazeroライクな深層強化学習は,適応的なロールアウトに基づくウォームスタートの恩恵を受ける。
論文 参考訳(メタデータ) (2021-05-13T08:24:51Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。