論文の概要: Deep Reinforcement Learning Xiangqi Player with Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2506.15880v1
- Date: Wed, 18 Jun 2025 21:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.853654
- Title: Deep Reinforcement Learning Xiangqi Player with Monte Carlo Tree Search
- Title(参考訳): モンテカルロ木探索によるXiangqiプレーヤーの深部強化学習
- Authors: Berk Yilmaz, Junyu Hu, Jinsong Liu,
- Abstract要約: 本稿ではXiangqiのための深層強化学習(DRL)システムについて述べる。
戦略的自己再生と自己改善を可能にするために、ニューラルネットワークとMCTS(Monte Carlo Tree Search)を統合している。
- 参考スコア(独自算出の注目度): 0.4681661603096334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a Deep Reinforcement Learning (DRL) system for Xiangqi (Chinese Chess) that integrates neural networks with Monte Carlo Tree Search (MCTS) to enable strategic self-play and self-improvement. Addressing the underexplored complexity of Xiangqi, including its unique board layout, piece movement constraints, and victory conditions, our approach combines policy-value networks with MCTS to simulate move consequences and refine decision-making. By overcoming challenges such as Xiangqi's high branching factor and asymmetrical piece dynamics, our work advances AI capabilities in culturally significant strategy games while providing insights for adapting DRL-MCTS frameworks to domain-specific rule systems.
- Abstract(参考訳): 本稿では,モンテカルロ木探索(MCTS)とニューラルネットワークを統合したXiangqi(中国チェス)のためのDep Reinforcement Learning(DRL)システムを提案する。
Xiangqiの独特なボードレイアウト、部品移動制限、勝利条件など、探索されていない複雑さに対処するため、当社のアプローチでは、ポリシー値ネットワークとMCTSを組み合わせることで、動きの結果をシミュレートし、意思決定を洗練する。
Xiangqiの高分岐係数や非対称ピースダイナミクスといった課題を克服することで、我々の研究は、DRL-MCTSフレームワークをドメイン固有のルールシステムに適用するための洞察を提供しながら、文化的に重要な戦略ゲームにおけるAI能力を向上させる。
関連論文リスト
- DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy [15.472887575322133]
大規模言語モデル(LLM)は、AIシステムの平衡探索に代わる有望な代替手段を提供する。
外交の均衡政策を学習する微調整LDMエージェントDipLLMを提案する。
本研究は,マルチプレイヤーゲームにおける複雑な戦略決定処理のための微調整LDMの可能性を示すものである。
論文 参考訳(メタデータ) (2025-06-11T12:25:32Z) - Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B [48.45472563225202]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を革新的に統合した MCT Self-Refine (MCTSr) アルゴリズムを提案する。
このアルゴリズムは、セレクション、自己定義、自己評価、バックプロパゲーションの反復的なプロセスを通じてモンテカルロ探索木を構築する。
大規模な実験は、オリンピアードレベルの数学問題の解法におけるMCTSrの有効性を示す。
論文 参考訳(メタデータ) (2024-06-11T16:01:07Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - Checkmating One, by Using Many: Combining Mixture of Experts with MCTS to Improve in Chess [17.101742121345648]
ゲームフェーズに基づいて戦略を動的に適応するモジュール型フレームワークであるM2CTSを紹介する。
各フェーズでトレーニングされた特殊なニューラルネットワークを通じて決定をルーティングすることで、M2CTSは計算効率と演奏強度の両方を改善する。
チェスの実験では、M2CTSは標準の単一モデルベースラインよりも最大+122 Eloを達成する。
論文 参考訳(メタデータ) (2024-01-30T09:55:14Z) - Exploring Parity Challenges in Reinforcement Learning through Curriculum
Learning with Noisy Labels [0.0]
本稿では,カリキュラム学習フレームワーク内に構築され,ノイズラベルを付加したシミュレーション学習プロセスを提案する。
このアプローチは、ニューラルネットワーク(NN)が小学校からより複雑なゲームポジションにどのように適応し、進化するかを、徹底的に分析する。
論文 参考訳(メタデータ) (2023-12-08T21:32:39Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。