論文の概要: The Token Games: Evaluating Language Model Reasoning with Puzzle Duels
- arxiv url: http://arxiv.org/abs/2602.17831v1
- Date: Thu, 19 Feb 2026 20:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.143944
- Title: The Token Games: Evaluating Language Model Reasoning with Puzzle Duels
- Title(参考訳): The Token Games: パズルデュエルを用いた言語モデル推論の評価
- Authors: Simon Henniger, Gabriel Poesia,
- Abstract要約: The Token Games (TTG) は、16世紀の数学的なデュエルからインスピレーションを得ており、モデルがパズルを作成することによって互いに挑戦する評価フレームワークである。
ペアワイズデュエルの結果を用いて、Eloのレーティングを計算し、互いに相対的なモデルを比較する。
我々はTTG上で10のフロンティアモデルを評価し、HumanityのLast Examのような既存のベンチマークのランクと密に一致している。
- 参考スコア(独自算出の注目度): 6.179868854898031
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluating the reasoning capabilities of Large Language Models is increasingly challenging as models improve. Human curation of hard questions is highly expensive, especially in recent benchmarks using PhD-level domain knowledge to challenge the most capable models. Even then, there is always a concern about whether these questions test genuine reasoning or if similar problems have been seen during training. Here, we take inspiration from 16th-century mathematical duels to design The Token Games (TTG): an evaluation framework where models challenge each other by creating their own puzzles. We leverage the format of Programming Puzzles - given a Python function that returns a boolean, find inputs that make it return True - to flexibly represent problems and enable verifying solutions. Using results from pairwise duels, we then compute Elo ratings, allowing us to compare models relative to each other. We evaluate 10 frontier models on TTG, and closely match the ranking from existing benchmarks such as Humanity's Last Exam, without involving any human effort in creating puzzles. We also find that creating good puzzles is still a highly challenging task for current models, not measured by previous benchmarks. Overall, our work suggests new paradigms for evaluating reasoning that cannot be saturated by design, and that allow testing models for other skills like creativity and task creation alongside problem solving.
- Abstract(参考訳): 大規模言語モデルの推論能力を評価することは、モデルの改善に伴ってますます困難になっている。
特に最近のベンチマークでは、PhDレベルのドメイン知識を使って最も有能なモデルに挑戦している。
それでも、これらの質問が真の推論をテストするのか、あるいはトレーニング中に同様の問題が見られたのかは、常に懸念されている。
ここでは、16世紀の数学的デュエルからインスピレーションを得て、独自のパズルを作成することによって、モデル同士が挑戦する評価フレームワークThe Token Games (TTG) を設計する。
我々はProgramming Puzzlesのフォーマット(booleanを返すPython関数が与えられたら、Trueを返すインプットを見つける)を活用して、柔軟に問題を表現し、バリデーションソリューションを有効にします。
ペアワイズデュエルの結果を用いて、Eloのレーティングを計算し、互いに相対的なモデルを比較する。
我々はTTG上で10のフロンティアモデルを評価し、HumanityのLast Examのような既存のベンチマークのランクと密に一致している。
また、優れたパズルを作成することは現在のモデルにとって非常に難しい課題であり、以前のベンチマークでは測定されなかったこともわかりました。
全体として、私たちの研究は、設計によって飽和できない推論を評価するための新しいパラダイムを提案しています。
関連論文リスト
- Evaluating Language Models' Evaluations of Games [65.49017696754825]
我々は,AIシステムのゲーム評価を評価する新しいパラダイムを提唱する。
私たちは100ドル以上の新しいボードゲームと450以上の人間の判断の大規模なデータセットを活用しています。
本結果から,推論モデルは,非推論言語モデルよりもゲーム評価において,一般に人々と一致していることが示唆された。
論文 参考訳(メタデータ) (2025-10-13T02:45:37Z) - UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。
未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。
上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文 参考訳(メタデータ) (2025-08-25T01:07:59Z) - Self-Questioning Language Models [58.73276539661649]
本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。
提案者と解答者はともに強化学習を通じて訓練される。
3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文 参考訳(メタデータ) (2025-08-05T17:51:33Z) - Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-06-06T16:17:09Z) - EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges [17.056693711040747]
エニグマエスバル(EnigmaEval)は、パズル競技やイベントから派生した問題と解決策のデータセットである。
このデータセットは、暗黙の知識合成と多段階帰納的推論を実行するモデルの能力を探索する。
ベンチマークは1184のパズルで構成されており、複雑度は様々だ。
論文 参考訳(メタデータ) (2025-02-13T00:18:34Z) - BRAINTEASER: Lateral Thinking Puzzles for Large Language Models [15.95314613982879]
BRAINTEASERは、横方向の思考を示すモデルの能力をテストするために設計された多重選択質問回答タスクである。
最先端のインストラクションとコモンセンス言語モデルを用いた実験により,人間とモデルの性能の間に大きなギャップがあることが判明した。
横方向の思考モデルの開発と評価作業を促進するために、コードとデータをすべて利用可能にしています。
論文 参考訳(メタデータ) (2023-10-08T07:46:01Z) - Solving and Generating NPR Sunday Puzzles with Large Language Models [0.0]
最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。
最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。
GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
論文 参考訳(メタデータ) (2023-06-21T13:23:48Z) - Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6~8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。
実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文 参考訳(メタデータ) (2022-12-20T04:33:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。