論文の概要: ChessArena: A Chess Testbed for Evaluating Strategic Reasoning Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.24239v1
- Date: Mon, 29 Sep 2025 03:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.722438
- Title: ChessArena: A Chess Testbed for Evaluating Strategic Reasoning Capabilities of Large Language Models
- Title(参考訳): ChessArena: 大規模言語モデルの戦略的推論能力を評価するためのチェステストベッド
- Authors: Jincheng Liu, Sijun He, Jingjing Wu, Xiangsen Wang, Yang Chen, Zhaoqi Kuang, Siqi Bao, Yuan Yao,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の戦略的推論能力を評価するためのチェステストベッドであるChessArenaを提案する。
Chessには、長期計画、厳格なルール理解、マルチターン会話記憶など、複雑な戦略的推論機能が必要である。
素人レベルのチェスエンジンであるマイア1100に勝てるモデルはないが、任意に動きを選択するランダムプレイヤーに勝てないモデルもある。
我々の微調整されたQwen3-8Bは性能を大幅に改善し、最先端の推論モデルにアプローチしました。
- 参考スコア(独自算出の注目度): 11.234477661864736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have shown strong reasoning capabilities. However, a critical question remains: do these models possess genuine reasoning skills particularly complex strategic reasoning or are they primarily excelling at sophisticated pattern recognition within their training data? To address this question, this paper presents a chess testbed, ChessArena, to evaluate the strategic reasoning capabilities of LLMs. Chess requires complex strategic reasoning capabilities including long-term planning, strict rule comprehension, and multi-turn conversation memorization. Specifically, ChessArena is a competitive framework where LLMs play against each other, under four different play modes. The testbed is equipped with a ranking algorithm and a leaderboard. The testbed can also evaluate fine-grained capabilities including basic understanding, move selection, and puzzle solving. Over 13 LLMs with different modes are evaluated in ChessArena, playing over 800 games. The results reveal significant shortcomings in current LLMs: no model can beat Maia-1100 (a chess engine at human amateur level), while some even failed to defeat a random player that selects moves arbitrarily. We also present a strong baseline to the testbed: our fine-tuned Qwen3-8B substantially improved performance, approaching much larger state-of-the-art reasoning models.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、強い推論能力を示している。
しかし、重要な疑問が残る:これらのモデルは真の推論スキル、特に複雑な戦略的推論を持っているか、それともトレーニングデータ内の高度なパターン認識に長けているか?
そこで本研究では,LLMの戦略的推論能力を評価するためのチェステストベッドであるChessArenaを提案する。
Chessには、長期計画、厳格なルール理解、マルチターン会話記憶など、複雑な戦略的推論機能が必要である。
具体的には、ChessArenaは、LLMが4つの異なるプレイモードの下で互いに対戦する競合フレームワークである。
テストベッドはランキングアルゴリズムとリーダーボードを備えている。
テストベッドは、基本的な理解、移動選択、パズル解決など、きめ細かい機能を評価できる。
異なるモードを持つ13以上のLDMがチェスアリーナで評価され、800以上のゲームがプレイされている。
モデルはマイア-1100(人間のアマチュアレベルのチェスエンジン)を倒すことができず、一部のモデルは任意に動きを選択するランダムプレイヤーを倒すことができなかった。
我々の微調整されたQwen3-8Bは性能を大幅に改善し、最先端の推論モデルにアプローチしました。
関連論文リスト
- Can Large Language Models Develop Strategic Reasoning? Post-training Insights from Learning Chess [54.5355907369231]
チェスにおける強化学習(RL)を通して,大規模言語モデル (LLM) が戦略的推論能力を発達させることができるかを検討する。
以上の結果から, 蒸留法に基づく高密度報酬は, 希少な二進報酬よりも優れていることが示唆された。
我々は、チェス推論訓練におけるSFTおよびRLの略語を提供し、この制限が、事前訓練されたモデルのチェスに対する内部理解の欠如に起因する証拠を見つける。
論文 参考訳(メタデータ) (2025-07-01T13:16:34Z) - Explore the Reasoning Capability of LLMs in the Chess Testbed [45.12891789312405]
我々は,注釈付き戦略と戦術を統合することで,チェスにおける大規模言語モデルの推論能力を向上させることを提案する。
我々はLLaMA-3-8Bモデルを微調整し、より優れたチェスの動きを選択するタスクにおいて、最先端の商用言語モデルと比較する。
論文 参考訳(メタデータ) (2024-11-11T01:42:56Z) - Predicting Chess Puzzle Difficulty with Transformers [0.0]
GlickFormerは,Glicko-2レーティングシステムを用いて,チェスパズルの難易度を予測するトランスフォーマーアーキテクチャである。
提案モデルでは,空間的特徴抽出にChessFormerのバックボーンを改良し,分解変換技術を用いて時間情報を組み込んだ。
結果は、GlickFormerのパフォーマンスが、最先端のChessFormerベースラインと比較して、複数のメトリクスにわたって優れていることを示している。
論文 参考訳(メタデータ) (2024-10-14T20:39:02Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。