論文の概要: Pencil Puzzle Bench: A Benchmark for Multi-Step Verifiable Reasoning
- arxiv url: http://arxiv.org/abs/2603.02119v1
- Date: Mon, 02 Mar 2026 17:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.00933
- Title: Pencil Puzzle Bench: A Benchmark for Multi-Step Verifiable Reasoning
- Title(参考訳): Pencil Puzzle Bench: マルチステップ検証推論のためのベンチマーク
- Authors: Justin Waugh,
- Abstract要約: 本稿では,ペンシル・プッズル・ベンチ(Pencil Puzzle Bench)について紹介する。
62,231のパズルのデータベースから、20種にまたがる300のパズルのベンチマークを選択し、11のプロバイダから51のモデルを評価する。
ベンチマークの重要な差別化要因は、すべての中間ボード状態が、さまざまな制約に対してチェック可能であることです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Pencil Puzzle Bench, a framework for evaluating large language model reasoning through pencil puzzles, a family of constraint-satisfaction problems closely related to NP-complete problems, with deterministic, step-level verification. From a database of 62,231 puzzles across 94 varieties with verified unique solutions, we select a benchmark of 300 puzzles spanning 20 varieties and evaluate 51 models from 11 providers in two modes: direct ask (single-shot) and agentic (multi-turn with iterative verification). A key differentiator of our benchmark is that every intermediate board state can be checked against variety-specific constraints, localizing errors to the exact rule violated, providing the infrastructure for dense, per-move reward signals for process supervision and reinforcement learning. Our evaluation reveals two distinct axes of capability: (1) reasoning effort scaling, where GPT-5.2 improves 81x from no reasoning to maximum effort; and (2) agentic iteration, where Claude Opus 4.6 rises from 0.3% to 30.0% through iterative checking, while GPT-5.2@xhigh improves from 20.2% to 56.0%. Agentic attempts span a median of 29 turns over 17 minutes, with the longest exceeding 1,221 turns and 14.3 hours - a demanding test of long-context utilization, not just reasoning.
- Abstract(参考訳): 本稿では,Pencil Puzzle Benchを紹介した。Pencil Puzzle Benchは,NP完全問題と密接に関連する制約満足度問題の一家系であり,決定論的,ステップレベルの検証を行う。
94種にまたがる62,231のパズルのデータベースから、20種にまたがる300のパズルのベンチマークを選択し、11のプロバイダから51のモデルを2つのモードで評価する。
ベンチマークの重要な差別化要因は、すべての中間ボード状態が、様々な制約に対してチェック可能であること、エラーを正確なルールにローカライズすること、プロセスの監督と強化学習のための密度の高い1モーブ当たりの報酬信号のインフラを提供することである。
GPT-5.2は推論から最大労力まで81倍に向上し, エージェント反復ではClaude Opus 4.6は反復チェックにより0.3%から30.0%に上昇し, GPT-5.2@xhighは20.2%から56.0%に向上した。
エージェント・トライアルは中央値29ターンを17分以上、最長の1,221ターンと14.3時間にまたがる。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - PRIME: Policy-Reinforced Iterative Multi-agent Execution for Algorithmic Reasoning in Large Language Models [5.598141218271656]
大規模言語モデルは様々な推論タスクにまたがって顕著な能力を示してきたが、アルゴリズム的推論のパフォーマンスは依然として限られている。
本稿では,3つの専門エージェントからなるフレームワークPRIME,ステップバイステップ推論のエグゼキュータ,制約チェックの検証器,バックトラック制御のコーディネータを提案する。
これまでで最大のアルゴリズム推論ベンチマークであるPRIME-Benchを導入し,12のカテゴリにわたる86のタスクと51,600のインスタンスを比較検討した。
論文 参考訳(メタデータ) (2026-01-19T07:57:01Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - BeyondBench: Benchmark-Free Evaluation of Reasoning in Language Models [13.380359214677176]
インターネット規模のトレーニングデータから汚染を避けるための評価フレームワークであるBeyondBenchを紹介する。
本フレームワークでは,44のアルゴリズムタスクを117のバリエーションでカバーし,3つの難易度に分類する。
85のオープンソースモデルと16のクローズドソースモデルを含む101の言語モデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T02:49:01Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-06-06T16:17:09Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。