論文の概要: TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games
- arxiv url: http://arxiv.org/abs/2506.10209v1
- Date: Wed, 11 Jun 2025 22:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.476378
- Title: TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games
- Title(参考訳): TTT-Bench: シンプルで新しいTic-Tac-Toeスタイルゲームによる推論能力の評価ベンチマーク
- Authors: Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum,
- Abstract要約: 大規模な推論モデル(LRM)は、オリンピアードレベルの数学的問題を含む幅広いタスクにわたって、印象的な推論能力を示している。
多くの推論ベンチマークはSTEM領域に焦点を絞っているが、より広いタスク領域で正しい推論を行うLRMの能力はいまだ未定である。
LRMの基本的な戦略的、空間的、論理的推論能力を評価するために設計された新しいベンチマークである textbfTTT-Bench を紹介する。
- 参考スコア(独自算出の注目度): 15.789303182902115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) have demonstrated impressive reasoning capabilities across a broad range of tasks including Olympiad-level mathematical problems, indicating evidence of their complex reasoning abilities. While many reasoning benchmarks focus on the STEM domain, the ability of LRMs to reason correctly in broader task domains remains underexplored. In this work, we introduce \textbf{TTT-Bench}, a new benchmark that is designed to evaluate basic strategic, spatial, and logical reasoning abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games that humans can effortlessly solve from a young age. We propose a simple yet scalable programmatic approach for generating verifiable two-player game problems for TTT-Bench. Although these games are trivial for humans, they require reasoning about the intentions of the opponent, as well as the game board's spatial configurations, to ensure a win. We evaluate a diverse set of state-of-the-art LRMs, and \textbf{discover that the models that excel at hard math problems frequently fail at these simple reasoning games}. Further testing reveals that our evaluated reasoning models score on average $\downarrow$ 41\% \& $\downarrow$ 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024 respectively, with larger models achieving higher performance using shorter reasoning traces, where most of the models struggle on long-term strategic reasoning situations on simple and new TTT-Bench tasks.
- Abstract(参考訳): 大規模な推論モデル(LRM)は、オリンピアードレベルの数学的問題を含む幅広いタスクにおいて、その複雑な推論能力の証拠を示す印象的な推論能力を示している。
多くの推論ベンチマークはSTEM領域に焦点を絞っているが、より広いタスク領域で正しい推論を行うLRMの能力はいまだ未定である。
本研究では,2人プレイのTic-Tac-Toeスタイルの4種類のゲームを用いて,LRMの基本的戦略的,空間的,論理的推論能力を評価するための新しいベンチマークである「textbf{TTT-Bench}」を紹介する。
本稿では,TT-Benchの検証可能な2プレイヤーゲーム問題を生成するための,単純かつスケーラブルなプログラム的手法を提案する。
これらのゲームは人間にとっては自明なものだが、勝つためには相手の意図やゲームボードの空間構成を推論する必要がある。
我々は、最先端のLEMを多種多様なセットで評価し、これらの単純な推論ゲームにおいて、ハード数学問題に優れるモデルがしばしば失敗することを \textbf{discover する。
さらに,評価された推論モデルの平均値は,MATH 500 \& AIME 2024と比較すると,平均$ 41\% および $\downarrow$ 5\% 低い値を示した。
関連論文リスト
- TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models [5.6525926183880255]
本論文では,対話型コードブレークタスクによるマルチターン・マルチステップ推論を評価する新しいベンチマークであるTurnBenchを紹介する。
各エピソードにおいて、モデルはシーケンシャルな推測を行い、構造化されたフィードバックを受け取り、複数のラウンドで手がかりを統合することによって、隠れた論理的または算術的なルールを明らかにする必要がある。
TurnBenchには、標準推論をテストするClassicと、複雑さを増し堅牢な推論チェーンを必要とするNightmareの2つのモードがある。
論文 参考訳(メタデータ) (2025-06-02T05:47:50Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。