論文の概要: Rotated Bitboards in FUSc# and Reinforcement Learning in Computer Chess and Beyond
- arxiv url: http://arxiv.org/abs/2503.10822v1
- Date: Thu, 13 Mar 2025 19:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:54.370645
- Title: Rotated Bitboards in FUSc# and Reinforcement Learning in Computer Chess and Beyond
- Title(参考訳): FUSc#の回転ビットボードとコンピュータチェスの強化学習
- Authors: Johannes Buchner,
- Abstract要約: FUSc#の移動ジェネレータが100%正しく動作することを示す。
我々は,「FUSc#-Zero」の実装方法と,優れたパフォーマンスを達成するために必要なトレーニングゲーム数を減らすために何が必要かについて議論した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: There exist several techniques for representing the chess board inside the computer. In the first part of this paper, the concepts of the bitboard-representation and the advantages of (rotated) bitboards in move generation are explained. In order to illustrate those ideas practice, the concrete implementation of the move-generator in FUSc# is discussed and we explain a technique how to verify the move-generator with the "perft"-command. We show that the move-generator of FUSc# works 100% correct. The second part of this paper deals with reinforcement learning in computer chess (and beyond). We exemplify the progress that has been made in this field in the last 15-20 years by comparing the "state of the art" from 2002-2008, when FUSc# was developed, with recent innovations connected to "AlphaZero". We discuss how a "FUSc#-Zero" could be implemented and what would be necessary to reduce the number of training games necessary to achieve a good performance. This can be seen as a test case to the general prblem of improving "sample effciency" in reinforcement learning. In the final part, we move beyond computer chess, as the importance of sample effciency extends far beyond board games into a wide range of applications where data is costly, diffcult to obtain, or time consuming to generate. We review some application of the ideas developed in AlphaZero in other domains, i.e. the "other Alphas" like AlphaFold, AlphaTensor, AlphaGeometry and AlphaProof. We also discuss future research and the potential for such methods for ecological economic planning.
- Abstract(参考訳): コンピュータ内にはチェス盤を表現するための技法がいくつかある。
本稿では,移動生成におけるビットボード表現の概念と(回転)ビットボードの利点を説明する。
それらの実践を説明するために,FUSc#における移動ジェネレータの具体的実装について論じ,移動ジェネレータを"perft"コマンドで検証する方法を説明する。
FUSc#の移動ジェネレータが100%正しく動作することを示す。
本論文の第2部では,コンピュータチェスの強化学習について論じる。
2002~2008年にFUSc#が開発されたときの「最先端技術」と、近年の「アルファゼロ」に関連付けられたイノベーションを比較して、この分野におけるこの15~20年間の進歩を例証する。
我々は,「FUSc#-Zero」の実装方法と,優れたパフォーマンスを達成するために必要なトレーニングゲーム数を減らすために何が必要かについて議論した。
これは、強化学習における「サンプル効率」を向上する一般のプルーブムに対するテストケースと見なすことができる。
最終部では,サンプル効率の重要性がボードゲームを超えて,データ取得に費用がかかること,取得に要する時間を要する広範囲のアプリケーションへと拡大するので,コンピュータチェスに留まらない。
我々は、AlphaZeroで開発された他の領域、すなわちAlphaFold、AlphaTensor、AlphaGeometry、AlphaProofのような"他のアルファ"のいくつかの応用についてレビューする。
また、今後の研究や、環境経済計画の手法の可能性についても論じる。
関連論文リスト
- MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games [9.339645051415115]
MiniZeroは、ゼロ知識学習フレームワークで、4つの最先端アルゴリズムをサポートする。
我々は,2つのボードゲーム,9x9 Go,8x8 Othello,57のAtariゲームにおいて,各アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-10-17T14:29:25Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Technical Challenges of Deploying Reinforcement Learning Agents for Game
Testing in AAA Games [58.720142291102135]
本稿では,既存の自動ゲームテストソリューションに,スクリプト型ボットをベースとして,実験的な強化学習システムを追加する取り組みについて述べる。
ゲーム制作において強化学習を活用するためのユースケースを示し、ゲームのために同じ旅をしたいと思う人なら誰でも遭遇する最大の時間をカバーしています。
我々は、機械学習、特にゲーム生産において効果的なツールである強化学習を作るのに価値があり、必要であると考えるいくつかの研究指針を提案する。
論文 参考訳(メタデータ) (2023-07-19T18:19:23Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Neural Networks for Chess [2.055949720959582]
AlphaZero、Leela Chess Zero、Stockfish NNUEはコンピュータチェスに革命をもたらした。
この本は、そのようなエンジンの技術的な内部動作について、完全な紹介を行っている。
論文 参考訳(メタデータ) (2022-09-03T22:17:16Z) - Acquisition of Chess Knowledge in AlphaZero [14.41428465712717]
人間の知識がAlphaZeroニューラルネットワークによって獲得され、チェスのゲームでトレーニングされることを示す。
これらの概念がAlphaZeroネットワークでいつ、どこで表現されているかを示す。
チェスのグランドマスターであるウラジーミル・クラムニクの質的分析を含む、オープニングプレイに焦点を当てた行動分析も提供する。
論文 参考訳(メタデータ) (2021-11-17T17:46:19Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Teach me to play, gamer! Imitative learning in computer games via
linguistic description of complex phenomena and decision tree [55.41644538483948]
本稿では,複雑な現象の言語記述に基づく模倣による新しい機械学習モデルを提案する。
この手法は,ゲーム開発における知的エージェントの動作を設計し,実装するための優れた代替手段となる。
論文 参考訳(メタデータ) (2021-01-06T21:14:10Z) - LiveChess2FEN: a Framework for Classifying Chess Pieces based on CNNs [0.0]
我々は,1秒未満で画像からチェス位置を自動的にデジタル化する機能的フレームワークを実装した。
チェスの駒の分類と組込みプラットフォーム上で効率的にマップする方法について、さまざまな畳み込みニューラルネットワークを分析した。
論文 参考訳(メタデータ) (2020-12-12T16:48:40Z) - Rethinking Few-Shot Image Classification: a Good Embedding Is All You
Need? [72.00712736992618]
メタトレーニングセット上で教師付きあるいは自己教師型表現を学習する単純なベースラインが、最先端の数ショット学習方法より優れていることを示す。
追加の増量は自己蒸留によって達成できる。
我々は,この発見が,画像分類ベンチマークとメタ学習アルゴリズムの役割を再考する動機となっていると考えている。
論文 参考訳(メタデータ) (2020-03-25T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。