論文の概要: SPaRC: A Spatial Pathfinding Reasoning Challenge
- arxiv url: http://arxiv.org/abs/2505.16686v1
- Date: Thu, 22 May 2025 13:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.339071
- Title: SPaRC: A Spatial Pathfinding Reasoning Challenge
- Title(参考訳): SPaRC:空間パスフィニング推論の課題
- Authors: Lars Benedikt Kaesberg, Jan Philip Wahle, Terry Ruas, Bela Gipp,
- Abstract要約: SPaRCは空間的および記号的推論を評価するために1,000個の2次元グリッドパスフィンディングパズルのデータセットである。
人間がほぼ完全な精度(ハードパズルでは98.0%、94.5%)を達成するのに対して、o4-miniのような最良の推論モデルは15.8%、ハードパズルでは1.1%)。
- 参考スコア(独自算出の注目度): 7.140449861888235
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing reasoning datasets saturate and fail to test abstract, multi-step problems, especially pathfinding and complex rule constraint satisfaction. We introduce SPaRC (Spatial Pathfinding Reasoning Challenge), a dataset of 1,000 2D grid pathfinding puzzles to evaluate spatial and symbolic reasoning, requiring step-by-step planning with arithmetic and geometric rules. Humans achieve near-perfect accuracy (98.0%; 94.5% on hard puzzles), while the best reasoning models, such as o4-mini, struggle (15.8%; 1.1% on hard puzzles). Models often generate invalid paths (>50% of puzzles for o4-mini), and reasoning tokens reveal they make errors in navigation and spatial logic. Unlike humans, who take longer on hard puzzles, models fail to scale test-time compute with difficulty. Allowing models to make multiple solution attempts improves accuracy, suggesting potential for better spatial reasoning with improved training and efficient test-time scaling methods. SPaRC can be used as a window into models' spatial reasoning limitations and drive research toward new methods that excel in abstract, multi-step problem-solving.
- Abstract(参考訳): 既存の推論データセットは飽和し、抽象的で多段階の問題、特にパスフィニングと複雑なルール制約満足度をテストするのに失敗する。
SPaRC(Spatial Pathfinding Reasoning Challenge)は,空間的および記号的推論を評価するために,1000個の2次元グリッドパスフィンディングパズルのデータセットである。
人間はほぼ完全な精度(ハードパズルでは98.0%、94.5%)を達成する一方、o4-miniのような最良の推論モデルは15.8%、ハードパズルでは1.1%である。
モデルはしばしば無効な経路(o4-miniのパズルの50%以上)を生成し、推論トークンはナビゲーションや空間論理の誤りを示す。
ハードパズルに長引く人間とは異なり、モデルはテストタイムの計算を困難にスケールできない。
複数のソリューションを試すモデルを提供することで精度が向上し、トレーニングの改善と効率的なテスト時間スケーリング手法による空間推論の改善が期待できる。
SPaRCは、モデルの空間的推論制限の窓口として使用することができ、抽象的で多段階の問題解決に優れた新しい方法の研究を促進することができる。
関連論文リスト
- THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges [17.056693711040747]
エニグマエスバル(EnigmaEval)は、パズル競技やイベントから派生した問題と解決策のデータセットである。
このデータセットは、暗黙の知識合成と多段階帰納的推論を実行するモデルの能力を探索する。
ベンチマークは1184のパズルで構成されており、複雑度は様々だ。
論文 参考訳(メタデータ) (2025-02-13T00:18:34Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。