論文の概要: Leela Zero Score: a Study of a Score-based AlphaGo Zero
- arxiv url: http://arxiv.org/abs/2201.13176v1
- Date: Mon, 31 Jan 2022 12:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 22:02:11.601496
- Title: Leela Zero Score: a Study of a Score-based AlphaGo Zero
- Title(参考訳): Leela Zero Score: スコアベースのAlphaGo Zeroの研究
- Authors: Luca Pasqualini and Maurizio Parton and Francesco Morandin and
Gianluca Amato and Rosa Gini and Carlo Metta
- Abstract要約: Leela Zero ScoreはLeela Zeroとして知られるオープンソースのソリューションに基づいて設計されている。
9x9ボードでトレーニングされ、勝利率ではなくスコア差を予測する。
トレーニングによって合理的なプレイヤーが生成され、そのスタイルを強いアマチュアの人間プレイヤーに対して分析する。
- 参考スコア(独自算出の注目度): 1.904940310103857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AlphaGo, AlphaGo Zero, and all of their derivatives can play with superhuman
strength because they are able to predict the win-lose outcome with great
accuracy. However, Go as a game is decided by a final score difference, and in
final positions AlphaGo plays suboptimal moves: this is not surprising, since
AlphaGo is completely unaware of the final score difference, all winning final
positions being equivalent from the winrate perspective. This can be an issue,
for instance when trying to learn the "best" move or to play with an initial
handicap. Moreover, there is the theoretical quest of the "perfect game", that
is, the minimax solution. Thus, a natural question arises: is it possible to
train a successful Reinforcement Learning agent to predict score differences
instead of winrates? No empirical or theoretical evidence can be found in the
literature to support the folklore statement that "this does not work". In this
paper we present Leela Zero Score, a software designed to support or disprove
the "does not work" statement. Leela Zero Score is designed on the open-source
solution known as Leela Zero, and is trained on a 9x9 board to predict score
differences instead of winrates. We find that the training produces a rational
player, and we analyze its style against a strong amateur human player, to find
that it is prone to some mistakes when the outcome is close. We compare its
strength against SAI, an AlphaGo Zero-like software working on the 9x9 board,
and find that the training of Leela Zero Score has reached a premature
convergence to a player weaker than SAI.
- Abstract(参考訳): AlphaGo、AlphaGo Zero、およびそれらのデリバティブは、高い精度で勝敗結果を予測できるため、超人的な強度でプレイすることができる。
しかし、ゲームとしての囲碁は最終スコア差で決定され、最終ポジションではAlphaGoが準最適動作を行う。
例えば、"最高の"動きを学習したり、最初のhandicapでプレイしようとすると、これは問題になります。
さらに、「完璧なゲーム」すなわちミニマックス解の理論的な探求がある。
成功している強化学習エージェントを訓練して、勝利率ではなくスコア差を予測することは可能か?
文献に「これはうまくいかない」という民間伝承を支持するための実証的あるいは理論的証拠は見つからない。
本稿では, "does not work" 文をサポートするソフトウェアである leela zero score を提案する。
Leela Zero ScoreはLeela Zeroと呼ばれるオープンソースのソリューションに基づいて設計されており、9x9ボードでトレーニングされ、勝利率ではなくスコア差を予測する。
我々は、トレーニングが合理的なプレーヤを生み出すことを見出し、そのスタイルをアマチュアの強いプレーヤに対して分析し、結果が近づくといくつかのミスが発生しやすいことを発見した。
9x9基板で動作するAlphaGo ZeroライクなソフトウェアであるSAIと比較して、Leela Zero ScoreのトレーニングがSAIよりも弱いプレイヤーに早めに収束していることが分かる。
関連論文リスト
- People use fast, goal-directed simulation to reason about novel games [71.0171482296852]
シンプルなが斬新なConnect-Nスタイルのボードゲームについて、人々がどう考えるかを研究する。
ゲームがどんなに公平か、そしてどんなに楽しいのかを、ごくわずかな経験から判断するよう、私たちは人々に求めます。
論文 参考訳(メタデータ) (2024-07-19T07:59:04Z) - AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - Impartial Games: A Challenge for Reinforcement Learning [0.0]
我々はAlphaZeroスタイルの強化学習アルゴリズムが、プレイヤーが駒を共有する公平なゲームにおいて課題に直面していることを示す。
Nimは小さなボード上で学習できるが、AlphaZeroスタイルのアルゴリズムの学習の進歩は、ボードのサイズが大きくなると劇的に遅くなる。
論文 参考訳(メタデータ) (2022-05-25T14:02:02Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Mastering Terra Mystica: Applying Self-Play to Multi-agent Cooperative
Board Games [0.0]
本稿では,Terra Mysticaの複雑な戦略ゲームを解くための複数のアルゴリズムを探索し,比較する。
これらのブレークスルーをTMの新しい状態表現に適用し、人間のプレイヤーに匹敵するAIを作ることを目指しています。
最後に、複数のベースラインと典型的な人間のスコアを比較して、この手法の成功と欠点について議論する。
論文 参考訳(メタデータ) (2021-02-21T07:53:34Z) - Online Learning in Unknown Markov Games [55.07327246187741]
未知のマルコフゲームでオンライン学習を学ぶ。
後方視における最良の反応に対するサブ線形後悔の達成は統計的に困難であることを示す。
サブ線形$tildemathcalO(K2/3)$ regretを$K$のエピソード後に達成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-28T14:52:15Z) - Combining Deep Reinforcement Learning and Search for
Imperfect-Information Games [30.520629802135574]
本稿では,自己再生強化学習と探索のためのフレームワークであるReBeLを,ゼロサムゲームにおけるナッシュ均衡に確実に収束させる。
また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、制限なしのテキサスホールド'emポーカーのパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-07-27T15:21:22Z) - Polygames: Improved Zero Learning [21.114734326593002]
DeepMindのAlphaZero以来、ゼロラーニングは多くのボードゲームで最先端の手法となった。
ゲームライブラリとチェックポイントを備えた,ゼロ学習のためのフレームワークであるPolygamesをリリースする。
私たちは1919年のヘックスの試合で強い人間と対戦しました。
論文 参考訳(メタデータ) (2020-01-27T14:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。