論文の概要: PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts
- arxiv url: http://arxiv.org/abs/2506.06211v1
- Date: Fri, 06 Jun 2025 16:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 21:34:56.77986
- Title: PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts
- Title(参考訳): PuzzleWorld: プルハントにおけるマルチモーダルでオープンな推論のためのベンチマーク
- Authors: Hengzhi Li, Brendon Jiang, Alexander Naehu, Regan Song, Justin Zhang, Megan Tjandrasuwita, Chanakya Ekbote, Steven-Shine Chen, Adithya Balachandran, Wei Dai, Rebecca Chang, Paul Pu Liang,
- Abstract要約: 我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
- 参考スコア(独自算出の注目度): 47.92619068073141
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Puzzlehunts are a genre of complex, multi-step puzzles lacking well-defined problem definitions. In contrast to conventional reasoning benchmarks consisting of tasks with clear instructions, puzzlehunts require models to discover the underlying problem structure from multimodal evidence and iterative reasoning, mirroring real-world domains such as scientific discovery, exploratory data analysis, or investigative problem-solving. Despite recent progress in foundation models, their performance on such open-ended settings remains largely untested. In this paper, we introduce PuzzleWorld, a large-scale benchmark of 667 puzzlehunt-style problems designed to assess step-by-step, open-ended, and creative multimodal reasoning. Each puzzle is annotated with the final solution, detailed reasoning traces, and cognitive skill labels, enabling holistic benchmarking and fine-grained diagnostic analysis. Most state-of-the-art models achieve only 1-2% final answer accuracy, with the best model solving only 14% of puzzles and reaching 40% stepwise accuracy. To demonstrate the value of our reasoning annotations, we show that fine-tuning a small model on reasoning traces improves stepwise reasoning from 4% to 11%, while training on final answers alone degrades performance to near zero. Our error analysis reveals that current models exhibit myopic reasoning, are bottlenecked by the limitations of language-based inference, and lack sketching capabilities crucial for visual and spatial reasoning. We release PuzzleWorld at https://github.com/MIT-MI/PuzzleWorld to support future work on building more general, open-ended, and creative reasoning systems.
- Abstract(参考訳): パズルハント(英: Puzzlehunts)は、よく定義された問題定義を欠いた複雑で多段階のパズルのジャンルである。
明確な指示を持つタスクからなる従来の推論ベンチマークとは対照的に、パズルハントは、マルチモーダルなエビデンスや反復的推論、科学的な発見、探索的データ分析、探索的問題解決といった現実世界の領域のミラーリングから根底にある問題構造を発見するモデルを必要とする。
近年のファンデーションモデルの発展にもかかわらず、そのようなオープンエンド設定での彼らのパフォーマンスはほとんどテストされていない。
本稿では、ステップバイステップ、オープンエンド、クリエイティブなマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介する。
各パズルには最終解、詳細な推論トレース、認知スキルラベルが付加され、総合的なベンチマークと詳細な診断分析が可能になる。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
推論アノテーションの価値を示すために、推論トレースの小さなモデルを微調整すると、ステップワイズ推論が4%から11%に向上し、最終回答のみのトレーニングはパフォーマンスをほぼゼロに低下させることを示した。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
我々はPuzzleWorldをhttps://github.com/MIT-MI/PuzzleWorldでリリースします。
関連論文リスト
- SPaRC: A Spatial Pathfinding Reasoning Challenge [7.140449861888235]
SPaRCは空間的および記号的推論を評価するために1,000個の2次元グリッドパスフィンディングパズルのデータセットである。
人間がほぼ完全な精度(ハードパズルでは98.0%、94.5%)を達成するのに対して、o4-miniのような最良の推論モデルは15.8%、ハードパズルでは1.1%)。
論文 参考訳(メタデータ) (2025-05-22T13:53:50Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges [17.056693711040747]
エニグマエスバル(EnigmaEval)は、パズル競技やイベントから派生した問題と解決策のデータセットである。
このデータセットは、暗黙の知識合成と多段階帰納的推論を実行するモデルの能力を探索する。
ベンチマークは1184のパズルで構成されており、複雑度は様々だ。
論文 参考訳(メタデータ) (2025-02-13T00:18:34Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo-[n]シリーズ(o1、o3、o4-mini)のリリースは、大規模言語モデルにおける重要なパラダイムシフトである。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
以上の結果から, o-[n] 級数,特に o3 や o4-mini のような後続の反復は GPT-[n] 級数を著しく上回り,マルチモーダル推論において高いスケーラビリティを示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。
最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。
したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。