論文の概要: Sudoku-Bench: Evaluating creative reasoning with Sudoku variants
- arxiv url: http://arxiv.org/abs/2505.16135v1
- Date: Thu, 22 May 2025 02:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.981267
- Title: Sudoku-Bench: Evaluating creative reasoning with Sudoku variants
- Title(参考訳): スドク・ベンチ:スドク変種による創造的推論の評価
- Authors: Jeffrey Seely, Yuki Imajuku, Tianyu Zhao, Edoardo Cetin, Llion Jones,
- Abstract要約: Sudoku-Benchは、創造的で多段階の論理的推論を評価するための、キュレートされたベンチマークである。
Sudoku-Benchには、慎重に選択されたパズルセット、標準化されたテキストベースのパズル表現、数千の公開パズルと互換性のある柔軟なツールが含まれている。
- 参考スコア(独自算出の注目度): 17.624558883326184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing reasoning benchmarks for large language models (LLMs) frequently fail to capture authentic creativity, often rewarding memorization of previously observed patterns. We address this shortcoming with Sudoku-Bench, a curated benchmark of challenging and unconventional Sudoku variants specifically selected to evaluate creative, multi-step logical reasoning. Sudoku variants form an unusually effective domain for reasoning research: each puzzle introduces unique or subtly interacting constraints, making memorization infeasible and requiring solvers to identify novel logical breakthroughs (``break-ins''). Despite their diversity, Sudoku variants maintain a common and compact structure, enabling clear and consistent evaluation. Sudoku-Bench includes a carefully chosen puzzle set, a standardized text-based puzzle representation, and flexible tools compatible with thousands of publicly available puzzles -- making it easy to extend into a general research environment. Baseline experiments show that state-of-the-art LLMs solve fewer than 15\% of puzzles unaided, highlighting significant opportunities to advance long-horizon, strategic reasoning capabilities.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)の推論ベンチマークは、しばしば真の創造性を捉えることができず、しばしば以前に観察されたパターンの記憶に報いる。
我々は、創造的で多段階の論理的推論を評価するために特別に選択された挑戦的で非伝統的なスードゥーク変種をキュレートしたベンチマークであるSudoku-Benchで、この欠点に対処する。
スードゥーク変種は、推理研究において異常に効果的な領域を形成しており、それぞれのパズルは、独特または微妙に相互作用する制約を導入し、暗記を不可能にし、解法者に新たな論理的ブレークスルー(`break-ins'')を特定することを要求する。
その多様性にもかかわらず、スドク変種は共通かつコンパクトな構造を維持し、明確で一貫した評価を可能にする。
Sudoku-Benchには、慎重に選択されたパズルセット、標準化されたテキストベースのパズル表現、数千の公開されているパズルと互換性のある柔軟なツールが含まれている。
ベースライン実験は、最先端のLLMが解いたパズルの15倍以下であり、長期的な戦略的推論能力を前進させる重要な機会を浮き彫りにしていることを示している。
関連論文リスト
- CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges [17.056693711040747]
エニグマエスバル(EnigmaEval)は、パズル競技やイベントから派生した問題と解決策のデータセットである。
このデータセットは、暗黙の知識合成と多段階帰納的推論を実行するモデルの能力を探索する。
ベンチマークは1184のパズルで構成されており、複雑度は様々だ。
論文 参考訳(メタデータ) (2025-02-13T00:18:34Z) - Mathematical Definition and Systematization of Puzzle Rules [0.0]
本稿では,鉛筆パズルルールの定義と体系化のための数学的枠組みを提案する。
このフレームワークはグリッド要素、それらの位置関係、および反復合成操作を形式化する。
この枠組みを適用し,Slitherlink や Sudoku など,よく知られた Nikoli パズルのルールを定式化した。
論文 参考訳(メタデータ) (2024-12-18T02:00:53Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Multi-Phase Relaxation Labeling for Square Jigsaw Puzzle Solving [73.58829980121767]
本稿では,大域最適化に基づく二乗ジグソーパズルの解法を提案する。
この手法は完全に自動化されており、事前情報を前提とせず、未知または未知のピースオリエンテーションでパズルを扱うことができる。
論文 参考訳(メタデータ) (2023-03-26T18:53:51Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - Using Small MUSes to Explain How to Solve Pen and Paper Puzzles [4.535832029902474]
本稿では,パズルを高レベル制約プログラミング言語で表現できるツールであるdemystifyを提案する。
MUSでパズルを解くための既存の技術にいくつかの改善を加えます。
手作業でペンと紙のパズルを解くための文書化戦略と比較することにより,Demystifyの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2021-04-30T15:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。