論文の概要: Mind the Gap Between Spatial Reasoning and Acting! Step-by-Step Evaluation of Agents With Spatial-Gym
- arxiv url: http://arxiv.org/abs/2604.09338v1
- Date: Fri, 10 Apr 2026 14:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.896893
- Title: Mind the Gap Between Spatial Reasoning and Acting! Step-by-Step Evaluation of Agents With Spatial-Gym
- Title(参考訳): 空間共鳴と行動のギャップを意識する! 空間ジャムを持つエージェントのステップ・バイ・ステップ評価
- Authors: Lars Benedikt Kaesberg, Tianyu Yang, Niklas Bauer, Terry Ruas, Jan Philip Wahle, Bela Gipp,
- Abstract要約: 任意のバックトラックを伴う逐次決定課題としての2次元グリッドパズルにおける空間ジムテストパスフィニング
我々は,500回のエピソードにおいて,8つのモデル(ワンショット,ステップバイステップ,ステップバイステップ,バックトラック)を人間,ランダム,A*ベースラインに対して評価した。
- 参考スコア(独自算出の注目度): 13.424353009036068
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Spatial reasoning is central to navigation and robotics, yet measuring model capabilities on these tasks remains difficult. Existing benchmarks evaluate models in a one-shot setting, requiring full solution generation in a single response, unlike humans, who work in interactive environments step-by-step. We introduce Spatial-Gym, a Gymnasium environment that isolates spatial constraint reasoning by testing pathfinding in 2D-grid puzzles as a sequential decision task with optional backtracking. We evaluate eight models in three settings (one-shot, step-by-step, step-by-step with backtracking) against human, random, and A* baselines on 500 episodes. The best model, GPT-OSS 120B, achieves a solve rate of 16.0%, 82 points below the human baseline (98.0%). Step-by-step format helps weaker models (up to +5.4%) by removing formatting errors, but hurts stronger models (up to 5.6%) by constraining global planning. Backtracking improves episode completion, but increases solve rate only for weaker models; stronger models rarely backtrack and do not benefit from it. Our experiments have three key findings: (1) models fail to scale reasoning effort with difficulty, (2) vision models receiving images of the spatial environment reduce solve rate by 73%, and (3) extended chain-of-thought reasoning retains a 3-5x accuracy advantage over standard inference even in the step-by-step setting. Spatial-Gym enables diagnosis of model limitations and provides a framework for improving spatial reasoning through reinforcement learning.
- Abstract(参考訳): 空間推論はナビゲーションとロボティクスの中心であるが、これらのタスクのモデル能力の測定は依然として困難である。
既存のベンチマークでは、対話的な環境で働く人間と違って、単一応答で完全なソリューション生成を必要とする、ワンショットでモデルを評価する。
本研究では,2次元グリッドパズルにおけるパスフィンディングテストにより空間制約推論を分離する体育館環境であるSpatial-Gymを,任意のバックトラックによる逐次決定タスクとして導入する。
我々は,500回のエピソードにおいて,8つのモデル(ワンショット,ステップバイステップ,ステップバイステップ,バックトラック)を人間,ランダム,A*ベースラインに対して評価した。
最も優れたモデルであるGPT-OSS 120Bは、人間のベースライン(98.0%)以下で16.0%、82ポイントの解答率を達成する。
ステップバイステップのフォーマットは、フォーマットエラーを取り除くことによって(+5.4%まで)モデルを弱めるが、グローバルプランニングを制約することで(最大5.6%まで)より強力なモデルを傷つける。
バックトラックはエピソード完了を改善するが、より弱いモデルでのみ解決率が向上する。
実験では,(1)困難を伴う推論のスケールアップに失敗するモデル,(2)空間環境のイメージを受信するビジョンモデルにより解解率を73%削減するモデル,(3) 拡張チェーン・オブ・シークレット推論では,ステップバイステップでも標準推論よりも3~5倍の精度で解解率を維持できる,という3つの重要な結果を得た。
Space-Gymはモデル制約の診断を可能にし、強化学習による空間推論を改善するためのフレームワークを提供する。
関連論文リスト
- Brevity Constraints Reverse Performance Hierarchies in Language Models [0.0]
ベンチマーク問題の7.7%では、より大きな言語モデルは10-100倍のパラメータにもかかわらず、より小さな言語モデルよりも28.4ポイント低い。
我々は,このメカニズムを,過度な作業を通じてエラーを発生させる自発的なスケール依存的冗長性として認識する。
この結果から,大規模モデルの性能を最大化するには,スケールアウェア・プロンプト・エンジニアリングが必要であることが判明した。
論文 参考訳(メタデータ) (2026-03-11T06:47:41Z) - How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs [49.61011897610774]
How2Everythingは、ゴール条件ドプロシージャの生成を評価し改善するフレームワークである。
私たちのフレームワークには、14トピックにわたる980KのWebページから351KのプロシージャをマイニングするHow2Mineが含まれています。
How2Score(ハウ2スコア)は、LLMジャッジを使用して、世代が目標達成を阻止する重要な障害を含むかどうかを検出する評価プロトコルである。
論文 参考訳(メタデータ) (2026-02-09T15:47:14Z) - Chain of Simulation: A Dual-Mode Reasoning Framework for Large Language Models with Dynamic Problem Routing [0.0]
Chain of Simulation(CoS)は、動的に問題を特別な推論戦略にルーティングする新しいデュアルモード推論フレームワークである。
CoSは、数学的問題に対する自己整合性を伴う計算フロー、空間的推論のための表現を伴う記号的状態追跡、マルチホップ推論のためのハイブリッド事実抽出という3つの異なる推論モードを採用している。
論文 参考訳(メタデータ) (2026-02-02T21:44:01Z) - Orthographic Constraint Satisfaction and Human Difficulty Alignment in Large Language Models [2.3991974633684854]
大規模な言語モデルは、制御されたテキスト生成中に厳密な正書法制約を満たす必要がある。
人格レベルの制約満足度を必要とする58の単語パズルに対して、3つのモデルファミリーにまたがる28の構成を評価した。
論文 参考訳(メタデータ) (2025-11-26T06:12:33Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-09T17:50:54Z) - ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models [9.30148520355391]
本稿では,3段階生成報酬モデルフレームワークReasonGRMを紹介する。
第1段階では、ゼロRLは簡潔で結果指向の推論パスを生成するために使用される。
第2段階では、$Rstar$は、生成可能性に基づいて推論パスをスコアする。
最終段階では、モデルは強化学習によりさらに洗練され、好みの識別能力が向上する。
論文 参考訳(メタデータ) (2025-06-20T03:10:52Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。