論文の概要: ChessQA: Evaluating Large Language Models for Chess Understanding
- arxiv url: http://arxiv.org/abs/2510.23948v1
- Date: Tue, 28 Oct 2025 00:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.690433
- Title: ChessQA: Evaluating Large Language Models for Chess Understanding
- Title(参考訳): ChessQA: チェス理解のための大規模言語モデルの評価
- Authors: Qianfeng Wen, Zhenwei Tang, Ashton Anderson,
- Abstract要約: Chessは大規模言語モデル(LLM)の推論、モデリング、抽象化機能を評価するのに理想的なテストベッドを提供する。
5つのタスクカテゴリにわたるLLMチェス理解を評価するベンチマークであるChessQAを提案する。
5つのカテゴリにまたがって永続的な弱点を見つけ、結果とカテゴリ別エラー解析を提供する。
- 参考スコア(独自算出の注目度): 10.480398008794436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chess provides an ideal testbed for evaluating the reasoning, modeling, and abstraction capabilities of large language models (LLMs), as it has well-defined structure and objective ground truth while admitting a wide spectrum of skill levels. However, existing evaluations of LLM ability in chess are ad hoc and narrow in scope, making it difficult to accurately measure LLM chess understanding and how it varies with scale, post-training methodologies, or architecture choices. We present ChessQA, a comprehensive benchmark that assesses LLM chess understanding across five task categories (Structural, Motifs, Short Tactics, Position Judgment, and Semantic), which approximately correspond to the ascending abstractions that players master as they accumulate chess knowledge, from understanding basic rules and learning tactical motifs to correctly calculating tactics, evaluating positions, and semantically describing high-level concepts. In this way, ChessQA captures a more comprehensive picture of chess ability and understanding, going significantly beyond the simple move quality evaluations done previously, and offers a controlled, consistent setting for diagnosis and comparison. Furthermore, ChessQA is inherently dynamic, with prompts, answer keys, and construction scripts that can evolve as models improve. Evaluating a range of contemporary LLMs, we find persistent weaknesses across all five categories and provide results and error analyses by category. We will release the code, periodically refreshed datasets, and a public leaderboard to support further research.
- Abstract(参考訳): Chessは大きな言語モデル(LLM)の推論、モデリング、抽象化機能を評価するのに理想的なテストベッドを提供する。
しかし、チェスにおけるLLM能力の既存の評価は、スコープが狭く、LLMチェスの理解を正確に測定することは困難である。
本稿では,5つのタスクカテゴリ(構造的,モティフ,短期戦術,位置判断,セマンティック)にわたるLLMチェス理解を評価する総合ベンチマークであるChessQAを提案する。
このように、ChessQAはチェスの能力と理解をより包括的に捉え、これまで行われた単純な移動品質評価をはるかに越え、診断と比較のための制御された一貫性のある設定を提供する。
さらに、ChessQAは本質的に動的で、プロンプト、応答キー、モデルの改善に伴って進化するビルドスクリプトがある。
現代のLLMを評価した結果,5つのカテゴリにまたがる永続的な弱点が発見され,カテゴリごとの結果と誤り解析が得られた。
コードと定期的に更新されたデータセット、さらなる研究をサポートするための公開リーダボードをリリースする予定です。
関連論文リスト
- ChessArena: A Chess Testbed for Evaluating Strategic Reasoning Capabilities of Large Language Models [11.234477661864736]
本稿では,大規模言語モデル(LLM)の戦略的推論能力を評価するためのチェステストベッドであるChessArenaを提案する。
Chessには、長期計画、厳格なルール理解、マルチターン会話記憶など、複雑な戦略的推論機能が必要である。
素人レベルのチェスエンジンであるマイア1100に勝てるモデルはないが、任意に動きを選択するランダムプレイヤーに勝てないモデルもある。
我々の微調整されたQwen3-8Bは性能を大幅に改善し、最先端の推論モデルにアプローチしました。
論文 参考訳(メタデータ) (2025-09-29T03:24:48Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - Can Large Language Models Develop Strategic Reasoning? Post-training Insights from Learning Chess [54.5355907369231]
チェスにおける強化学習(RL)を通して,大規模言語モデル (LLM) が戦略的推論能力を発達させることができるかを検討する。
以上の結果から, 蒸留法に基づく高密度報酬は, 希少な二進報酬よりも優れていることが示唆された。
我々は、チェス推論訓練におけるSFTおよびRLの略語を提供し、この制限が、事前訓練されたモデルのチェスに対する内部理解の欠如に起因する証拠を見つける。
論文 参考訳(メタデータ) (2025-07-01T13:16:34Z) - Explore the Reasoning Capability of LLMs in the Chess Testbed [45.12891789312405]
我々は,注釈付き戦略と戦術を統合することで,チェスにおける大規模言語モデルの推論能力を向上させることを提案する。
我々はLLaMA-3-8Bモデルを微調整し、より優れたチェスの動きを選択するタスクにおいて、最先端の商用言語モデルと比較する。
論文 参考訳(メタデータ) (2024-11-11T01:42:56Z) - Aspect-based Sentiment Evaluation of Chess Moves (ASSESS): an NLP-based Method for Evaluating Chess Strategies from Textbooks [3.652509571098292]
本研究は, テキストに基づくチェスの動きを評価する手段として, 修正感情分析法の適用可能性について検討する。
移動行動句から洞察を抽出することにより,よりきめ細やかで文脈的に認識されたチェスの動きに基づく感情分類を提供することが目的である。
論文 参考訳(メタデータ) (2024-05-10T14:23:43Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Learning to Play Chess from Textbooks (LEAP): a Corpus for Evaluating
Chess Moves based on Sentiment Analysis [4.314956204483074]
本稿では,チェスの遊び方を学ぶための新しい知識源として,チェスの教科書について検討する。
我々はLEAPコーパスを開発した。LEAPコーパスは、構造化された(記法やボード状態を動かす)構造付きおよび非構造化データを備えた、最初の、そして新しい異種データセットである。
感情分析のための各種変圧器ベースラインモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2023-10-31T08:26:02Z) - Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。
自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。
トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文 参考訳(メタデータ) (2021-02-26T01:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。