論文の概要: Explore the Reasoning Capability of LLMs in the Chess Testbed
- arxiv url: http://arxiv.org/abs/2411.06655v1
- Date: Mon, 11 Nov 2024 01:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:18.866896
- Title: Explore the Reasoning Capability of LLMs in the Chess Testbed
- Title(参考訳): チェス試験場におけるLDMの共振性能の探索
- Authors: Shu Wang, Lei Ji, Renxi Wang, Wenxiao Zhao, Haokun Liu, Yifan Hou, Ying Nian Wu,
- Abstract要約: 我々は,注釈付き戦略と戦術を統合することで,チェスにおける大規模言語モデルの推論能力を向上させることを提案する。
我々はLLaMA-3-8Bモデルを微調整し、より優れたチェスの動きを選択するタスクにおいて、最先端の商用言語モデルと比較する。
- 参考スコア(独自算出の注目度): 45.12891789312405
- License:
- Abstract: Reasoning is a central capability of human intelligence. In recent years, with the advent of large-scale datasets, pretrained large language models have emerged with new capabilities, including reasoning. However, these models still struggle with long-term, complex reasoning tasks, such as playing chess. Based on the observation that expert chess players employ a dual approach combining long-term strategic play with short-term tactical play along with language explanation, we propose improving the reasoning capability of large language models in chess by integrating annotated strategy and tactic. Specifically, we collect a dataset named MATE, which consists of 1 million chess positions with candidate moves annotated by chess experts for strategy and tactics. We finetune the LLaMA-3-8B model and compare it against state-of-the-art commercial language models in the task of selecting better chess moves. Our experiments show that our models perform better than GPT, Claude, and Gemini models. We find that language explanations can enhance the reasoning capability of large language models.
- Abstract(参考訳): 推論は人間の知能の中心的な能力である。
近年、大規模なデータセットの出現に伴い、事前訓練された大規模言語モデルには、推論を含む新たな機能が追加されている。
しかし、これらのモデルはチェスなど、長期的な複雑な推論タスクに苦戦している。
本稿では,長期戦略プレイと短期戦術プレイを併用した2つのアプローチと言語説明の両面から,アノテート戦略と戦術を統合することで,チェスにおける大規模言語モデルの推論能力を向上させることを提案する。
具体的には、MATEという名前のデータセットを収集し、100万のチェスポジションと、チェスの専門家による戦略と戦術のアノテートされた候補の動きからなる。
我々はLLaMA-3-8Bモデルを微調整し、より優れたチェスの動きを選択するタスクにおいて、最先端の商用言語モデルと比較する。
実験の結果,GPT,Claude,Geminiモデルよりも優れた性能を示した。
言語説明は,大規模言語モデルの推論能力を高めることができる。
関連論文リスト
- Predicting Chess Puzzle Difficulty with Transformers [0.0]
GlickFormerは,Glicko-2レーティングシステムを用いて,チェスパズルの難易度を予測するトランスフォーマーアーキテクチャである。
提案モデルでは,空間的特徴抽出にChessFormerのバックボーンを改良し,分解変換技術を用いて時間情報を組み込んだ。
結果は、GlickFormerのパフォーマンスが、最先端のChessFormerベースラインと比較して、複数のメトリクスにわたって優れていることを示している。
論文 参考訳(メタデータ) (2024-10-14T20:39:02Z) - Learning to Play Chess from Textbooks (LEAP): a Corpus for Evaluating
Chess Moves based on Sentiment Analysis [4.314956204483074]
本稿では,チェスの遊び方を学ぶための新しい知識源として,チェスの教科書について検討する。
我々はLEAPコーパスを開発した。LEAPコーパスは、構造化された(記法やボード状態を動かす)構造付きおよび非構造化データを備えた、最初の、そして新しい異種データセットである。
感情分析のための各種変圧器ベースラインモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2023-10-31T08:26:02Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Large Language Models on the Chessboard: A Study on ChatGPT's Formal
Language Comprehension and Complex Reasoning Skills [4.138999291282392]
本稿では,OpenAIによる洗練された言語モデルChatGPTの性能について検討する。
チェスボードに対するChatGPTの理解,チェス規則の遵守,戦略的意思決定能力を評価する。
また本研究では,ChatGPTのゲームプレイにおけるコヒーレントな戦略への適合性や,意思決定的主張の顕著な上昇も明らかにした。
論文 参考訳(メタデータ) (2023-08-29T08:36:30Z) - ChessGPT: Bridging Policy Learning and Language Modeling [17.85415939196955]
ChessGPTはポリシー学習と言語モデリングのためのGPTモデルである。
チェスに関連する大規模ゲームと言語データセットを構築した。
政策学習と言語モデリングを統合したChessCLIPとChessGPTのモデル例を2つ紹介する。
論文 参考訳(メタデータ) (2023-06-15T15:35:31Z) - Improving Chess Commentaries by Combining Language Models with Symbolic
Reasoning Engines [31.87260568733666]
本稿では, シンボリック推論エンジンと制御可能な言語モデルを組み合わせることで, チェスの解説を生成する方法について述べる。
我々は,従来の基準よりも人間の判断に好まれる注釈を生成することを実証するために実験を行った。
論文 参考訳(メタデータ) (2022-12-15T23:38:31Z) - Language Models are Multilingual Chain-of-Thought Reasoners [83.37148309771378]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。
MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。
言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:03:34Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。
自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。
トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文 参考訳(メタデータ) (2021-02-26T01:16:23Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。