論文の概要: Mixture of Masters: Sparse Chess Language Models with Player Routing
- arxiv url: http://arxiv.org/abs/2602.04447v1
- Date: Wed, 04 Feb 2026 11:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.502229
- Title: Mixture of Masters: Sparse Chess Language Models with Player Routing
- Title(参考訳): マスターの混合:プレイヤールーティングを伴うスパースチェス言語モデル
- Authors: Giacomo Frisoni, Lorenzo Molfetta, Davide Freddi, Gianluca Moro,
- Abstract要約: 我々は,世界クラスのグランドマスターを模擬した小型GPT専門家による最初のチェスのミキシングモデルであるMoMを紹介する。
MoMは、チェス固有の報酬によって導かれる自己教師付き学習と強化学習の組み合わせで訓練される。
目に見えない標準的なゲームでStockfishに対して評価すると、MoMは、密集した個々の専門家ネットワークと一般的なGPTベースラインの両方を上回ります。
- 参考スコア(独自算出の注目度): 11.12925453015974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern chess language models are dense transformers trained on millions of games played by thousands of high-rated individuals. However, these monolithic networks tend to collapse into mode-averaged behavior, where stylistic boundaries are blurred, and rare but effective strategies are suppressed. To counteract homogenization, we introduce Mixture-of-Masters (MoM), the first chess mixture-of-experts model with small-sized GPT experts emulating world-class grandmasters. Each expert is trained with a combination of self-supervised learning and reinforcement learning guided by chess-specific rewards. For each move, a post-hoc learnable gating network selects the most appropriate persona to channel depending on the game state, allowing MoM to switch its style dynamically$--$e.g., Tal's offensive vocation or Petrosian's defensive solidity. When evaluated against Stockfish on unseen standard games, MoM outperforms both dense individual expert networks and popular GPT baselines trained on aggregated data, while ensuring generation variety, control, and interpretability.
- Abstract(参考訳): 現代のチェス言語モデルは、何千もの高水準の個人がプレイする何百万ものゲームで訓練された密なトランスフォーマーである。
しかし、これらのモノリシックネットワークは、スタイリスティックな境界が曖昧にされ、稀だが効果的な戦略が抑制される、平均的な行動に崩壊する傾向にある。
均質化に対抗するため,世界クラスのグランドマスターを模擬した小型GPT専門家による最初のチェス・オブ・エキスパートモデルであるMixture-of-Masters(MoM)を導入する。
各専門家は、チェス固有の報酬によって指導された自己教師付き学習と強化学習の組み合わせで訓練される。
各動きに対して、ポストホック学習可能なゲーティングネットワークは、ゲーム状態に応じて最も適切なペルソナを選択し、MoMがそのスタイルを動的に−$-$e g、タルの攻撃的職業またはペトロシアンの防御的ソリティーに切り替えることを可能にする。
目に見えない標準的なゲームでStockfishに対して評価すると、MoMは個々の専門家ネットワークと集約されたデータに基づいてトレーニングされた一般的なGPTベースラインの両方を上回り、生成の多様性、制御、解釈可能性を確保している。
関連論文リスト
- Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents [56.25101378553328]
本稿では,汎用ゲームエージェントであるGame-TARSについて紹介する。
Game-TARSは500B以上のトークンで事前トレーニングされており、様々な軌跡とマルチモーダルデータがある。
実験により、Game-TARSは、オープンワールドMinecraftタスクにおける以前のソータモデルの約2倍の成功率を達成することが示された。
論文 参考訳(メタデータ) (2025-10-27T17:43:51Z) - Out-of-distribution Tests Reveal Compositionality in Chess Transformers [6.356179251855671]
我々は、270Mパラメータチェス変換器を訓練し、系統的な一般化の失敗を明らかにするために、配布外シナリオでそれをテストする。
分析の結果,トランスフォーマーは強い規則外挿法によって証明されるように,構成的一般化を示すことが示された。
より難しいテストでは、チェスの変種であるチェス960など、部品の開始位置がランダム化される変種について、モデルを評価する。
論文 参考訳(メタデータ) (2025-10-23T17:51:28Z) - Explore the Reasoning Capability of LLMs in the Chess Testbed [45.12891789312405]
我々は,注釈付き戦略と戦術を統合することで,チェスにおける大規模言語モデルの推論能力を向上させることを提案する。
我々はLLaMA-3-8Bモデルを微調整し、より優れたチェスの動きを選択するタスクにおいて、最先端の商用言語モデルと比較する。
論文 参考訳(メタデータ) (2024-11-11T01:42:56Z) - Checkmating One, by Using Many: Combining Mixture of Experts with MCTS to Improve in Chess [17.101742121345648]
ゲームフェーズに基づいて戦略を動的に適応するモジュール型フレームワークであるM2CTSを紹介する。
各フェーズでトレーニングされた特殊なニューラルネットワークを通じて決定をルーティングすることで、M2CTSは計算効率と演奏強度の両方を改善する。
チェスの実験では、M2CTSは標準の単一モデルベースラインよりも最大+122 Eloを達成する。
論文 参考訳(メタデータ) (2024-01-30T09:55:14Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Know your Enemy: Investigating Monte-Carlo Tree Search with Opponent
Models in Pommerman [14.668309037894586]
強化学習(Reinforcement Learning)と組み合わせて、モンテカルロ木探索(Monte-Carlo Tree Search)はChess、Shogi、Goといったゲームにおいて、人間のグランドマスターよりも優れていることを示した。
汎用マルチプレイヤーゲームからシングルプレイヤーゲームと2プレイヤーゲームに変換する手法について検討する。
論文 参考訳(メタデータ) (2023-05-22T16:39:20Z) - Simeon -- Secure Federated Machine Learning Through Iterative Filtering [74.99517537968161]
連合学習は、分散的で相互に信頼できない学習エージェントによって、グローバルな機械学習モデルを協調的に訓練することを可能にする。
グローバルモデルは、トレーニングを行うクライアントに配布され、新しく訓練されたモデルを優れたモデルに集約します。
ビザンチン耐性アグリゲーションアルゴリズムのクラスが出現し、これらの攻撃に対して様々な堅牢性を提供している。
本稿では,評価に基づく反復フィルタリング手法を適用した新しいアグリゲーション手法であるSimeonを提案する。
論文 参考訳(メタデータ) (2021-03-13T12:17:47Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。