論文の概要: Chess-World-Model: A 10M-Game Benchmark for Exact State Tracking from Chess Move Sequences
- arxiv url: http://arxiv.org/abs/2605.30100v1
- Date: Thu, 28 May 2026 15:43:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.441536
- Title: Chess-World-Model: A 10M-Game Benchmark for Exact State Tracking from Chess Move Sequences
- Title(参考訳): Chess-World-Model: Chess Moveシークエンスからの厳密な状態トラッキングのための10Mゲームベンチマーク
- Authors: Benjamin Walker, Terry Lyons,
- Abstract要約: 我々は1000万の実際のチェスゲームから構築された大規模ステートトラッキングベンチマークであるChess-World-Modelを紹介した。
我々は、負の固有値を持つ因果変換器、ブロック対角SLiCE、Mamba-3、Gated DeltaNetをベンチマークする。
リアルゲームのパフォーマンスは1800万以上のパラメータで飽和するが、ランダムな一様分割は最大4000万まで差別的であり、それ以外はスケールによって隠された失敗を露呈する。
- 参考スコア(独自算出の注目度): 2.7214777196418645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models require state tracking, which is the ability to maintain a correct latent state across action sequences. Existing benchmarks are often synthetic or language-based, limiting their value as tests of structured state updates in realistic domains. We introduce Chess-World-Model, a large-scale state-tracking benchmark built from 10 million real chess games, where models predict the exact board state reached after a sequence of legal moves. Alongside a held-out real-game split, we include an out-of-distribution split from uniformly random legal play, which tests whether models learn the transition rules rather than shortcuts from common human positions. Prior theoretical and empirical work has shown that Transformers struggle to state-track, while input-dependent linear RNNs require expressive state-transition matrices to do so. We therefore benchmark a causal Transformer, block-diagonal SLiCE, Mamba-3, and Gated DeltaNet with negative eigenvalues under a matched interface and training protocol. The recurrent models strongly outperform the Transformer at 3 and 8 million parameters. Real-game performance saturates above 18 million parameters, but the random-uniform split remains discriminative up to 40 million, exposing failures otherwise hidden by scale. Additionally, ablations show that less expressive state-transition mechanisms reduce performance on the out-of-distribution split for all three recurrent models. Together, these results establish Chess-World-Model as a practical large-scale benchmark for state tracking that exposes failures model scale would otherwise conceal.
- Abstract(参考訳): 世界モデルは状態トラッキングを必要としており、アクションシーケンス間で正しい潜時状態を維持できる。
既存のベンチマークは、しばしば合成または言語ベースであり、現実的なドメインにおける構造化された状態更新のテストとしての価値を制限する。
私たちはChess-World-Modelを紹介します。これは1000万の実際のチェスゲームから構築された大規模な状態追跡ベンチマークです。
保持された実ゲーム分割に加えて、均一にランダムな法的なプレイからアウト・オブ・ディストリビューション(out-of-distriion)を分割し、モデルが一般的な人間の立場からのショートカットではなく、移行ルールを学習するかどうかをテストする。
以前の理論的および実証的な研究は、トランスフォーマーが状態追跡に苦慮していることを示し、一方入力依存線形RNNは表現的な状態遷移行列を必要とする。
そこで我々は,一致するインタフェースとトレーニングプロトコルの下で,負の固有値を持つ因果変換器,ブロック対角SLiCE,Mamba-3,Gated DeltaNetをベンチマークした。
リカレントモデルは、Transformerを3~800万のパラメータで強く上回る。
リアルゲームのパフォーマンスは1800万以上のパラメータで飽和するが、ランダムな一様分割は最大4000万まで差別的であり、それ以外はスケールによって隠された失敗を露呈する。
さらに,3つの再帰モデルに対して,表現力の低い状態遷移機構により分布外分割の性能が低下することが示唆された。
これらの結果により、Chess-World-Modelは、フェールモデルスケールを隠蔽する状態追跡のための実用的な大規模ベンチマークとして確立される。
関連論文リスト
- Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models [0.0]
KinGPTは、(配置、最良の)ペアのみに基づいて訓練された文字レベルの言語モデルである。
LLM-Modulo が RedPajama 3B の最良の移動精度を 1.2% から 21.2% に引き上げる方法を示す。
論文 参考訳(メタデータ) (2026-05-17T17:49:07Z) - ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess [30.797553771114746]
LLM CHESSは,大規模言語モデル(LLM)における推論と命令追従能力の一般化を調査するための評価フレームワークである。
我々は,移動品質,移動法則,幻覚行動,ゲーム持続時間などの行動指標を用いて,ランダムな相手と対戦することで,50以上のオープンかつクローズドなソースモデルをランク付けする。
トップ推論モデルのサブセットとして,可変構成のスキルを持つチェスエンジンと対戦して,Elo推定を導出する。
論文 参考訳(メタデータ) (2025-12-01T18:51:08Z) - Out-of-distribution Tests Reveal Compositionality in Chess Transformers [6.356179251855671]
我々は、270Mパラメータチェス変換器を訓練し、系統的な一般化の失敗を明らかにするために、配布外シナリオでそれをテストする。
分析の結果,トランスフォーマーは強い規則外挿法によって証明されるように,構成的一般化を示すことが示された。
より難しいテストでは、チェスの変種であるチェス960など、部品の開始位置がランダム化される変種について、モデルを評価する。
論文 参考訳(メタデータ) (2025-10-23T17:51:28Z) - TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models [5.6525926183880255]
本論文では,対話型コードブレークタスクによるマルチターン・マルチステップ推論を評価する新しいベンチマークであるTurnBenchを紹介する。
各エピソードにおいて、モデルはシーケンシャルな推測を行い、構造化されたフィードバックを受け取り、複数のラウンドで手がかりを統合することによって、隠れた論理的または算術的なルールを明らかにする必要がある。
TurnBenchには、標準推論をテストするClassicと、複雑さを増し堅牢な推論チェーンを必要とするNightmareの2つのモードがある。
論文 参考訳(メタデータ) (2025-06-02T05:47:50Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - StARformer: Transformer with State-Action-Reward Representations [45.62939275764248]
強化学習のためのステート・アクション・リワード変換器(StARformer)を提案する。
StARformerは局所因果関係を明示的にモデル化し、長いシーケンスでのアクション予測を改善する。
実験の結果,StARformer は Atari ベンチマークにおいて最先端の Transformer ベースの手法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-12T17:55:30Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。