論文の概要: Out-of-distribution Tests Reveal Compositionality in Chess Transformers
- arxiv url: http://arxiv.org/abs/2510.20783v1
- Date: Thu, 23 Oct 2025 17:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.525111
- Title: Out-of-distribution Tests Reveal Compositionality in Chess Transformers
- Title(参考訳): チェス変圧器の外部分布試験による構成性の検討
- Authors: Anna Mészáros, Patrik Reizinger, Ferenc Huszár,
- Abstract要約: 我々は、270Mパラメータチェス変換器を訓練し、系統的な一般化の失敗を明らかにするために、配布外シナリオでそれをテストする。
分析の結果,トランスフォーマーは強い規則外挿法によって証明されるように,構成的一般化を示すことが示された。
より難しいテストでは、チェスの変種であるチェス960など、部品の開始位置がランダム化される変種について、モデルを評価する。
- 参考スコア(独自算出の注目度): 6.356179251855671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chess is a canonical example of a task that requires rigorous reasoning and long-term planning. Modern decision Transformers - trained similarly to LLMs - are able to learn competent gameplay, but it is unclear to what extent they truly capture the rules of chess. To investigate this, we train a 270M parameter chess Transformer and test it on out-of-distribution scenarios, designed to reveal failures of systematic generalization. Our analysis shows that Transformers exhibit compositional generalization, as evidenced by strong rule extrapolation: they adhere to fundamental syntactic rules of the game by consistently choosing valid moves even in situations very different from the training data. Moreover, they also generate high-quality moves for OOD puzzles. In a more challenging test, we evaluate the models on variants including Chess960 (Fischer Random Chess) - a variant of chess where starting positions of pieces are randomized. We found that while the model exhibits basic strategy adaptation, they are inferior to symbolic AI algorithms that perform explicit search, but gap is smaller when playing against users on Lichess. Moreover, the training dynamics revealed that the model initially learns to move only its own pieces, suggesting an emergent compositional understanding of the game.
- Abstract(参考訳): Chessは厳格な推論と長期計画を必要とするタスクの標準的な例である。
現代の意思決定トランスフォーマーは、LSMと同様の訓練を受けており、能力のあるゲームプレイを学習することができるが、チェスのルールをどの程度真に捉えているかは定かではない。
これを調べるために,270Mパラメータチェス変換器をトレーニングし,系統的な一般化の失敗を明らかにするために,配布外シナリオでそれをテストする。
分析の結果,トランスフォーマーは,トレーニングデータとは全く異なる状況であっても,有効動作を一貫して選択することで,ゲームの基本構文規則に固執する,強いルール外挿によって証明されるような構成的一般化を示すことが示された。
さらに、OODパズルの高品質な動きも生成する。
より難しいテストでは、駒の開始位置がランダム化されるチェスの変種であるチェス960(フィッシャーランダムチェス)など、変種に関するモデルを評価する。
このモデルは基本的な戦略適応を示すが、明示的な検索を行うシンボリックAIアルゴリズムよりも劣るが、Liches上でユーザと対戦する際のギャップは小さい。
さらに、トレーニングダイナミクスは、当初モデルが自分自身の駒だけを動かすことを学習していることを明らかにし、ゲームの構成的理解が創発的であることを示唆した。
関連論文リスト
- ChessArena: A Chess Testbed for Evaluating Strategic Reasoning Capabilities of Large Language Models [11.234477661864736]
本稿では,大規模言語モデル(LLM)の戦略的推論能力を評価するためのチェステストベッドであるChessArenaを提案する。
Chessには、長期計画、厳格なルール理解、マルチターン会話記憶など、複雑な戦略的推論機能が必要である。
素人レベルのチェスエンジンであるマイア1100に勝てるモデルはないが、任意に動きを選択するランダムプレイヤーに勝てないモデルもある。
我々の微調整されたQwen3-8Bは性能を大幅に改善し、最先端の推論モデルにアプローチしました。
論文 参考訳(メタデータ) (2025-09-29T03:24:48Z) - Can Large Language Models Develop Strategic Reasoning? Post-training Insights from Learning Chess [54.5355907369231]
チェスにおける強化学習(RL)を通して,大規模言語モデル (LLM) が戦略的推論能力を発達させることができるかを検討する。
以上の結果から, 蒸留法に基づく高密度報酬は, 希少な二進報酬よりも優れていることが示唆された。
我々は、チェス推論訓練におけるSFTおよびRLの略語を提供し、この制限が、事前訓練されたモデルのチェスに対する内部理解の欠如に起因する証拠を見つける。
論文 参考訳(メタデータ) (2025-07-01T13:16:34Z) - Explore the Reasoning Capability of LLMs in the Chess Testbed [45.12891789312405]
我々は,注釈付き戦略と戦術を統合することで,チェスにおける大規模言語モデルの推論能力を向上させることを提案する。
我々はLLaMA-3-8Bモデルを微調整し、より優れたチェスの動きを選択するタスクにおいて、最先端の商用言語モデルと比較する。
論文 参考訳(メタデータ) (2024-11-11T01:42:56Z) - Predicting Chess Puzzle Difficulty with Transformers [0.0]
GlickFormerは,Glicko-2レーティングシステムを用いて,チェスパズルの難易度を予測するトランスフォーマーアーキテクチャである。
提案モデルでは,空間的特徴抽出にChessFormerのバックボーンを改良し,分解変換技術を用いて時間情報を組み込んだ。
結果は、GlickFormerのパフォーマンスが、最先端のChessFormerベースラインと比較して、複数のメトリクスにわたって優れていることを示している。
論文 参考訳(メタデータ) (2024-10-14T20:39:02Z) - Learning to Play Chess from Textbooks (LEAP): a Corpus for Evaluating
Chess Moves based on Sentiment Analysis [4.314956204483074]
本稿では,チェスの遊び方を学ぶための新しい知識源として,チェスの教科書について検討する。
我々はLEAPコーパスを開発した。LEAPコーパスは、構造化された(記法やボード状態を動かす)構造付きおよび非構造化データを備えた、最初の、そして新しい異種データセットである。
感情分析のための各種変圧器ベースラインモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2023-10-31T08:26:02Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Determining Chess Game State From an Image [19.06796946564999]
本稿では,既存のモデルよりも桁違いに大きい3次元モデルから合成した新しいデータセットについて述べる。
従来のコンピュータビジョン技術とディープラーニングを組み合わせた新しいエンドツーエンドチェス認識システムを紹介します。
記述されたシステムでは,テストセット上での誤差率は0.23%であり,現状の28倍である。
論文 参考訳(メタデータ) (2021-04-30T13:02:13Z) - Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。
自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。
トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文 参考訳(メタデータ) (2021-02-26T01:16:23Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。