論文の概要: Mastering Chinese Chess AI (Xiangqi) Without Search
- arxiv url: http://arxiv.org/abs/2410.04865v1
- Date: Mon, 7 Oct 2024 09:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 01:27:55.699390
- Title: Mastering Chinese Chess AI (Xiangqi) Without Search
- Title(参考訳): 検索なしで中国のチェスAI(Xiangqi)をマスターする
- Authors: Yu Chen, Juntong Lin, Zhichao Shu,
- Abstract要約: 我々は,検索アルゴリズムに頼らずに動作する高性能な中国チェスAIを開発した。
このAIは、人間の上位0.1%のプレイヤーと競争する能力を示した。
- 参考スコア(独自算出の注目度): 2.309569018066392
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We have developed a high-performance Chinese Chess AI that operates without reliance on search algorithms. This AI has demonstrated the capability to compete at a level commensurate with the top 0.1\% of human players. By eliminating the search process typically associated with such systems, this AI achieves a Queries Per Second (QPS) rate that exceeds those of systems based on the Monte Carlo Tree Search (MCTS) algorithm by over a thousandfold and surpasses those based on the AlphaBeta pruning algorithm by more than a hundredfold. The AI training system consists of two parts: supervised learning and reinforcement learning. Supervised learning provides an initial human-like Chinese chess AI, while reinforcement learning, based on supervised learning, elevates the strength of the entire AI to a new level. Based on this training system, we carried out enough ablation experiments and discovered that 1. The same parameter amount of Transformer architecture has a higher performance than CNN on Chinese chess; 2. Possible moves of both sides as features can greatly improve the training process; 3. Selective opponent pool, compared to pure self-play training, results in a faster improvement curve and a higher strength limit. 4. Value Estimation with Cutoff(VECT) improves the original PPO algorithm training process and we will give the explanation.
- Abstract(参考訳): 我々は,検索アルゴリズムに頼らずに動作する高性能な中国チェスAIを開発した。
このAIは、人間のプレイヤーの上位0.1倍のレベルで競争する能力を示した。
このAIは、このようなシステムに典型的な検索プロセスを排除することにより、モンテカルロ木探索(MCTS)アルゴリズムに基づくシステムのクエリ/秒(QPS)レートを1000倍以上に上回り、AlphaBetaプルーニングアルゴリズムに基づくクエリを100倍以上に上回る。
AIトレーニングシステムは、教師付き学習と強化学習の2つの部分で構成される。
教師付き学習に基づく強化学習は、AI全体の強度を新たなレベルに引き上げる。
このトレーニングシステムに基づいて、十分なアブレーション実験を行い、それを発見した。
1.中国チェスのCNNよりも高い性能を有するトランスフォーマーアーキテクチャのパラメータ量。
2. 両面の特徴が訓練過程を大幅に改善する可能性があること。
3) 選択対戦プールは, 純粋な自己プレイトレーニングに比べ, より高速な改善曲線と高い強度限界が得られる。
4. カットオフ(VECT)を用いた値推定は,元のPPOアルゴリズムのトレーニングプロセスを改善し,その説明を行う。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Maia-2: A Unified Model for Human-AI Alignment in Chess [10.577896749797485]
チェスにおける人間-AIアライメントのための統一モデリング手法を提案する。
プレイヤーの強みをエンコードしたチェス位置と動的に統合する,スキルアウェアアテンション機構を導入する。
我々の結果は、人間の意思決定とAIによる指導ツールに関する深い洞察を得るための道を開いた。
論文 参考訳(メタデータ) (2024-09-30T17:54:23Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Double A3C: Deep Reinforcement Learning on OpenAI Gym Games [0.0]
強化学習(Reinforcement Learning, RL)とは、エージェントが未知の環境でどのように行動し、報酬を最大化するかを判断する機械学習の分野である。
両アルゴリズムがOpenAI Gym Atari 2600をプレイしてベンチマークを上回り,両アルゴリズムの強みを生かしたDouble A3Cアルゴリズムの改良版を提案し,実装する。
論文 参考訳(メタデータ) (2023-03-04T00:06:27Z) - Instructive artificial intelligence (AI) for human training, assistance,
and explainability [0.24629531282150877]
ニューラルネットワークが従来のAI(XAI)の代替手段として人間の研修生にどのように教えるかを示す。
AIは人間の行動を調べ、より良いパフォーマンスをもたらす人間の戦略のバリエーションを計算する。
結果は、ハナビにおける人間の意思決定と人間-AIチームを改善するAIインストラクションの能力について提示される。
論文 参考訳(メタデータ) (2021-11-02T16:46:46Z) - Method for making multi-attribute decisions in wargames by combining
intuitionistic fuzzy numbers with reinforcement learning [18.04026817707759]
本稿では,多属性管理と強化学習を組み合わせたアルゴリズムを提案する。
エージェントの特定のルールに対する勝利率の低さと、インテリジェントなウォーゲームトレーニング中にすぐに収束できない問題を解決します。
この分野では、知的ウォーガミングのためのアルゴリズム設計が多属性意思決定と強化学習を組み合わせたのは初めてである。
論文 参考訳(メタデータ) (2021-09-06T10:45:52Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。