論文の概要: MastermindEval: A Simple But Scalable Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2503.05891v1
- Date: Fri, 07 Mar 2025 19:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:08.550739
- Title: MastermindEval: A Simple But Scalable Reasoning Benchmark
- Title(参考訳): MastermindEval: シンプルだがスケーラブルな推論ベンチマーク
- Authors: Jonas Golde, Patrick Haller, Fabio Barth, Alan Akbik,
- Abstract要約: MastermindEvalは、ボードゲームMastermindにインスパイアされたシンプルでスケーラブルで解釈可能な推論ベンチマークである。
本ベンチマークでは,(1) エージェント評価,(2) モデルが自律的にプレイするエージェント評価,(2) モデルが1つの有効なコードしか推論できないプリプレイされたゲーム状態を与える演目推論評価という2つの評価パラダイムをサポートする。
- 参考スコア(独自算出の注目度): 3.5519847710183674
- License:
- Abstract: Recent advancements in large language models (LLMs) have led to remarkable performance across a wide range of language understanding and mathematical tasks. As a result, increasing attention has been given to assessing the true reasoning capabilities of LLMs, driving research into commonsense, numerical, logical, and qualitative reasoning. However, with the rapid progress of reasoning-focused models such as OpenAI's o1 and DeepSeek's R1, there has been a growing demand for reasoning benchmarks that can keep pace with ongoing model developments. In this paper, we introduce MastermindEval, a simple, scalable, and interpretable deductive reasoning benchmark inspired by the board game Mastermind. Our benchmark supports two evaluation paradigms: (1) agentic evaluation, in which the model autonomously plays the game, and (2) deductive reasoning evaluation, in which the model is given a pre-played game state with only one possible valid code to infer. In our experimental results we (1) find that even easy Mastermind instances are difficult for current models and (2) demonstrate that the benchmark is scalable to possibly more advanced models in the future Furthermore, we investigate possible reasons why models cannot deduce the final solution and find that current models are limited in deducing the concealed code as the number of statement to combine information from is increasing.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、幅広い言語理解と数学的タスクにおいて顕著なパフォーマンスをもたらしている。
その結果, LLMの真の推論能力の評価や, 常識, 数値, 論理的, 定性的推論の研究に注目が集まっている。
しかし、OpenAIのo1やDeepSeekのR1のような推論に焦点を当てたモデルが急速に進歩し、進行中のモデル開発に追従できる推論ベンチマークに対する需要が高まっている。
本稿では,ボードゲームMastermindに触発されたシンプルでスケーラブルで解釈可能な推論ベンチマークであるMastermindEvalを紹介する。
本ベンチマークでは,(1) エージェント評価,(2) モデルが自律的にプレイするエージェント評価,(2) モデルが1つの有効なコードしか推論できないプリプレイされたゲーム状態を与える演目推論評価という2つの評価パラダイムをサポートする。
実験の結果,(1) たとえ簡単なMastermindインスタンスであっても,現在のモデルでは難しいこと,(2) ベンチマークが将来より先進的なモデルにスケーラブルであること,さらに,モデルが最終解を導出できないこと,そして現在のモデルが隠蔽されたコードから情報を合成するステートメントの数の増加に制限されていること,などが判明した。
関連論文リスト
- PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models [43.24329527262729]
一般知識のみを必要とするNPRサンデーパズルチャレンジに基づくベンチマークを提案する。
私たちの研究は、既存のベンチマークでは明らかでない機能ギャップを明らかにしています。
論文 参考訳(メタデータ) (2025-02-03T18:10:38Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo1とo3のリリースは、大規模言語モデルの高度な推論機能へのパラダイムシフトを表している。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
o1の優れた性能は、GPT-4oの計算コストの約750倍となり、効率性への懸念が高まった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - Metastable Dynamics of Chain-of-Thought Reasoning: Provable Benefits of Search, RL and Distillation [40.861314212279474]
メタスタブルマルコフプロセスとしてチェーン・オブ・シント(CoT)生成による推論時間計算について検討する。
スパースエッジに報酬を与える検索プロトコルの実装は、異なるクラスタに到達するための期待するステップ数を減らし、CoTを改善することを実証する。
また,検索によって得られる情報を利用して,より優れた推論モデルが得られることを示す。
論文 参考訳(メタデータ) (2025-02-02T18:19:14Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles [2.8839090723566296]
TurtleBenchは、私たちのオンラインTurtle Soup Puzzleプラットフォームから、実際のユーザ推測を収集します。
TurtleBenchには1,532のユーザ推測とアノテーション後の推測の正確性が含まれている。
私たちは現在利用可能な最も先進的な言語モデルのうち9つを徹底的に評価しました。
論文 参考訳(メタデータ) (2024-10-07T17:58:47Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。