Fugu-MT 論文翻訳(概要): PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts

論文の概要: PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts

arxiv url: http://arxiv.org/abs/2506.06211v1
Date: Fri, 06 Jun 2025 16:17:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 21:34:56.77986
Title: PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts
Title（参考訳）: PuzzleWorld: プルハントにおけるマルチモーダルでオープンな推論のためのベンチマーク
Authors: Hengzhi Li, Brendon Jiang, Alexander Naehu, Regan Song, Justin Zhang, Megan Tjandrasuwita, Chanakya Ekbote, Steven-Shine Chen, Adithya Balachandran, Wei Dai, Rebecca Chang, Paul Pu Liang,
Abstract要約: 我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
参考スコア（独自算出の注目度）: 47.92619068073141
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Puzzlehunts are a genre of complex, multi-step puzzles lacking well-defined problem definitions. In contrast to conventional reasoning benchmarks consisting of tasks with clear instructions, puzzlehunts require models to discover the underlying problem structure from multimodal evidence and iterative reasoning, mirroring real-world domains such as scientific discovery, exploratory data analysis, or investigative problem-solving. Despite recent progress in foundation models, their performance on such open-ended settings remains largely untested. In this paper, we introduce PuzzleWorld, a large-scale benchmark of 667 puzzlehunt-style problems designed to assess step-by-step, open-ended, and creative multimodal reasoning. Each puzzle is annotated with the final solution, detailed reasoning traces, and cognitive skill labels, enabling holistic benchmarking and fine-grained diagnostic analysis. Most state-of-the-art models achieve only 1-2% final answer accuracy, with the best model solving only 14% of puzzles and reaching 40% stepwise accuracy. To demonstrate the value of our reasoning annotations, we show that fine-tuning a small model on reasoning traces improves stepwise reasoning from 4% to 11%, while training on final answers alone degrades performance to near zero. Our error analysis reveals that current models exhibit myopic reasoning, are bottlenecked by the limitations of language-based inference, and lack sketching capabilities crucial for visual and spatial reasoning. We release PuzzleWorld at https://github.com/MIT-MI/PuzzleWorld to support future work on building more general, open-ended, and creative reasoning systems.
Abstract（参考訳）: パズルハント(英: Puzzlehunts)は、よく定義された問題定義を欠いた複雑で多段階のパズルのジャンルである。明確な指示を持つタスクからなる従来の推論ベンチマークとは対照的に、パズルハントは、マルチモーダルなエビデンスや反復的推論、科学的な発見、探索的データ分析、探索的問題解決といった現実世界の領域のミラーリングから根底にある問題構造を発見するモデルを必要とする。近年のファンデーションモデルの発展にもかかわらず、そのようなオープンエンド設定での彼らのパフォーマンスはほとんどテストされていない。本稿では、ステップバイステップ、オープンエンド、クリエイティブなマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介する。各パズルには最終解、詳細な推論トレース、認知スキルラベルが付加され、総合的なベンチマークと詳細な診断分析が可能になる。ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。推論アノテーションの価値を示すために、推論トレースの小さなモデルを微調整すると、ステップワイズ推論が4%から11%に向上し、最終回答のみのトレーニングはパフォーマンスをほぼゼロに低下させることを示した。誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。我々はPuzzleWorldをhttps://github.com/MIT-MI/PuzzleWorldでリリースします。

関連論文リスト

Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
SPaRC: A Spatial Pathfinding Reasoning Challenge [7.140449861888235]
SPaRCは空間的および記号的推論を評価するために1,000個の2次元グリッドパスフィンディングパズルのデータセットである。人間がほぼ完全な精度(ハードパズルでは98.0%、94.5%)を達成するのに対して、o4-miniのような最良の推論モデルは15.8%、ハードパズルでは1.1%)。
論文参考訳（メタデータ） (2025-05-22T13:53:50Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges [17.056693711040747]
エニグマエスバル(EnigmaEval)は、パズル競技やイベントから派生した問題と解決策のデータセットである。このデータセットは、暗黙の知識合成と多段階帰納的推論を実行するモデルの能力を探索する。ベンチマークは1184のパズルで構成されており、複雑度は様々だ。
論文参考訳（メタデータ） (2025-02-13T00:18:34Z)
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo-[n]シリーズ(o1、o3、o4-mini)のリリースは、大規模言語モデルにおける重要なパラダイムシフトである。 GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。以上の結果から, o-[n] 級数,特に o3 や o4-mini のような後続の反復は GPT-[n] 級数を著しく上回り,マルチモーダル推論において高いスケーラビリティを示すことが明らかとなった。
論文参考訳（メタデータ） (2025-02-03T05:47:04Z)
PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。単純な抽象パターンをうまく一般化できないことが分かりました。系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文参考訳（メタデータ） (2024-03-20T05:37:24Z)
Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文参考訳（メタデータ） (2024-03-06T17:15:04Z)
REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文参考訳（メタデータ） (2024-01-11T00:30:28Z)
Automated Graph Genetic Algorithm based Puzzle Validation for Faster Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文参考訳（メタデータ） (2023-02-17T18:15:33Z)
Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6～8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文参考訳（メタデータ） (2022-12-20T04:33:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。