論文の概要: HardcoreLogic: Challenging Large Reasoning Models with Long-tail Logic Puzzle Games
- arxiv url: http://arxiv.org/abs/2510.12563v1
- Date: Tue, 14 Oct 2025 14:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.350096
- Title: HardcoreLogic: Challenging Large Reasoning Models with Long-tail Logic Puzzle Games
- Title(参考訳): HardcoreLogic:Long-tail Logic Puzzle Gamesによる大規模推論モデルの構築
- Authors: Jingcong Liang, Shijun Wan, Xuehai Wu, Siyuan Wang, Yitong Li, Qianglong Chen, Duyu Tang, Zhongyu Wei,
- Abstract要約: 大規模推論モデル(LRM)は、論理パズルゲームを含む複雑なタスクにおける印象的なパフォーマンスを実証している。
既存のコーパスは、9x9 Sudokuのような人気のパズルに焦点を当てており、標準フォーマットに過度に適合し、ソリューションパターンを記憶するリスクがある。
HardcoreLogicは10ゲームにわたる5000以上のパズルの挑戦的なベンチマークである。
- 参考スコア(独自算出の注目度): 47.16851538147356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated impressive performance on complex tasks, including logical puzzle games that require deriving solutions satisfying all constraints. However, whether they can flexibly apply appropriate rules to varying conditions, particularly when faced with non-canonical game variants, remains an open question. Existing corpora focus on popular puzzles like 9x9 Sudoku, risking overfitting to canonical formats and memorization of solution patterns, which can mask deficiencies in understanding novel rules or adapting strategies to new variants. To address this, we introduce HardcoreLogic, a challenging benchmark of over 5,000 puzzles across 10 games, designed to test the robustness of LRMs on the "long-tail" of logical games. HardcoreLogic systematically transforms canonical puzzles through three dimensions: Increased Complexity (IC), Uncommon Elements (UE), and Unsolvable Puzzles (UP), reducing reliance on shortcut memorization. Evaluations on a diverse set of LRMs reveal significant performance drops, even for models achieving top scores on existing benchmarks, indicating heavy reliance on memorized stereotypes. While increased complexity is the dominant source of difficulty, models also struggle with subtle rule variations that do not necessarily increase puzzle difficulty. Our systematic error analysis on solvable and unsolvable puzzles further highlights gaps in genuine reasoning. Overall, HardcoreLogic exposes the limitations of current LRMs and establishes a benchmark for advancing high-level logical reasoning.
- Abstract(参考訳): 大規模推論モデル(LRM)は、全ての制約を満たす解の導出を必要とする論理パズルゲームを含む複雑なタスクにおける印象的なパフォーマンスを実証している。
しかし、それらが様々な条件に柔軟に適切な規則を適用できるかどうか、特に非正準ゲーム変種に直面する場合、未解決の問題である。
既存のコーパスは、9x9 Sudokuのような一般的なパズルに焦点を当てており、標準フォーマットへの過度な適合や、新しいルールの理解や新しい変種への戦略の適用の欠陥を隠蔽するソリューションパターンの記憶を危険にさらしている。
これを解決するために,論理ゲームの「ロングテール」上でのLEMの堅牢性をテストするために設計された,10ゲームにわたる5000以上のパズルの挑戦的ベンチマークであるHardcoreLogicを紹介した。
ハードコア論理は、3次元で標準的なパズルを体系的に変換する:増加複雑度(IC)、非共通要素(UE)、未解決パズル(UP)。
LRMの多様なセットに対する評価は、既存のベンチマークの上位スコアを達成したモデルであっても、大幅なパフォーマンス低下を示し、記憶されたステレオタイプに大きく依存していることを示している。
複雑さの増大が主な難しさの源であるが、モデルは必ずしもパズルの難しさを増さない微妙な規則のバリエーションに苦しむ。
解決不可能かつ解決不可能なパズルに対する系統的誤り解析は、真の推論におけるギャップをさらに強調する。
全体として、HardcoreLogicは現在のLRMの限界を明らかにし、ハイレベルな論理的推論を推し進めるためのベンチマークを確立する。
関連論文リスト
- PHANTOM RECALL: When Familiar Puzzles Fool Smart Models [29.172155264798466]
GPT、Gemini、Claudeといった大規模言語モデル(LLM)は古典論理パズルの解法に長けていることが多い。
最近の証拠は、これらのモデルは第一原理から推論するのではなく、記憶されたテンプレートにしばしば依存していることを示している。
パズルの精度がほぼ完璧であるにもかかわらず、モデルは修正されていないものに対して人間を著しく過小評価している。
論文 参考訳(メタデータ) (2025-10-13T18:09:50Z) - PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles [53.47227295854126]
本研究では,基礎モデルの推論と計画能力と,複雑な動的環境におけるスケーラビリティについて検討する。
PuzzlePlexは、様々なパズルによってこれらの能力を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-10-07T21:24:29Z) - Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-06-06T16:17:09Z) - Sudoku-Bench: Evaluating creative reasoning with Sudoku variants [17.624558883326184]
Sudoku-Benchは、創造的で多段階の論理的推論を評価するための、キュレートされたベンチマークである。
Sudoku-Benchには、慎重に選択されたパズルセット、標準化されたテキストベースのパズル表現、数千の公開パズルと互換性のある柔軟なツールが含まれている。
論文 参考訳(メタデータ) (2025-05-22T02:24:35Z) - EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges [17.056693711040747]
エニグマエスバル(EnigmaEval)は、パズル競技やイベントから派生した問題と解決策のデータセットである。
このデータセットは、暗黙の知識合成と多段階帰納的推論を実行するモデルの能力を探索する。
ベンチマークは1184のパズルで構成されており、複雑度は様々だ。
論文 参考訳(メタデータ) (2025-02-13T00:18:34Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。