論文の概要: CubeBench: Diagnosing Interactive, Long-Horizon Spatial Reasoning Under Partial Observations
- arxiv url: http://arxiv.org/abs/2512.23328v3
- Date: Thu, 01 Jan 2026 15:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 13:15:27.6718
- Title: CubeBench: Diagnosing Interactive, Long-Horizon Spatial Reasoning Under Partial Observations
- Title(参考訳): CubeBench: 部分観察下での対話型長距離空間共鳴の診断
- Authors: Huan-ang Gao, Zikang Zhang, Tianwei Luo, Kaisen Yang, Xinzhe Juan, Jiahao Qiu, Tianxing Chen, Bingxiang He, Hao Zhao, Hao Zhou, Shilong Liu, Mengdi Wang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、デジタル領域に精通しているが、物理世界の展開において大きなギャップに直面している。
この移行を妨げる3つの中核的認知的課題は、空間的推論、精神シミュレーションによる長期状態追跡、部分的な観察による活発な探索である。
ルービックキューブを中心とした新しい生成ベンチマークであるCubeBenchを紹介する。
- 参考スコア(独自算出の注目度): 60.51118188315758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents, while proficient in the digital realm, face a significant gap in physical-world deployment due to the challenge of forming and maintaining a robust spatial mental model. We identify three core cognitive challenges hindering this transition: spatial reasoning, long-horizon state tracking via mental simulation, and active exploration under partial observation. To isolate and evaluate these faculties, we introduce CubeBench, a novel generative benchmark centered on the Rubik's Cube. CubeBench uses a three-tiered diagnostic framework that progressively assesses agent capabilities, from foundational state tracking with full symbolic information to active exploration with only partial visual data. Our experiments on leading LLMs reveal critical limitations, including a uniform 0.00% pass rate on all long-horizon tasks, exposing a fundamental failure in long-term planning. We also propose a diagnostic framework to isolate these cognitive bottlenecks by providing external solver tools. By analyzing the failure modes, we provide key insights to guide the development of more physically-grounded intelligent agents.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、デジタル領域に熟練しているが、堅牢な空間的メンタルモデルの構築と維持が困難であるため、物理世界の展開において大きなギャップに直面している。
この移行を妨げる3つの中核的認知的課題は、空間的推論、精神シミュレーションによる長期状態追跡、部分的な観察による活発な探索である。
これらの特徴を分離し評価するために,ルービックキューブを中心とした新しい生成ベンチマークCubeBenchを紹介する。
CubeBenchは3段階の診断フレームワークを使用して,完全なシンボル情報を備えた基本状態トラッキングから,部分的な視覚データのみによるアクティブな探索に至るまで,エージェント機能を段階的に評価する。
LLMを先導する実験は、全ての長期作業において0.00%のパス率を含む重要な制限を明らかにし、長期計画における根本的な失敗を明らかにした。
また,これらの認知的ボトルネックを分離するための診断フレームワークを提案する。
障害モードを解析することにより、より物理的に接地された知的エージェントの開発を導くための重要な洞察を提供する。
関連論文リスト
- SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery [64.67498968405327]
SpaceDreamerは、活発な探索のクローズループプロセスを通じて空間推論を可能にする強化学習フレームワークである。
GeoPOは、整合性幾何制約を伴う木構造サンプリングとステップレベルの報酬推定を導入している。
論文 参考訳(メタデータ) (2025-12-08T17:20:50Z) - REM: Evaluating LLM Embodied Spatial Reasoning through Multi-Frame Trajectories [19.741468026765062]
本稿では,空間推論のための制御可能な3次元環境を用いたベンチマークREM(Reasoning over Embodied Multi-Frame Trajectories)を紹介する。
REMは、オブジェクトの永続性/識別、空間的関係、動的エンボディされた視点における数値的追跡などの重要な側面を体系的に評価する。
評価の結果、最高の性能を示す現在のモデルでは、全体的な性能が期待できるが、人間によって容易に扱える程度の複雑性レベルでは信頼性が低下していることがわかった。
論文 参考訳(メタデータ) (2025-11-30T05:20:22Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - SpatialViz-Bench: An MLLM Benchmark for Spatial Visualization [44.427830927596204]
SpaceViz-Benchは4つのサブ能力にまたがる12のタスクを持つ空間視覚化のための総合的なベンチマークである。
33種類の最先端MLLMを評価した結果,多彩な性能の変動がみられ,反直感的な結果が得られた。
論文 参考訳(メタデータ) (2025-07-10T10:27:20Z) - SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks [51.774165536666864]
SIRI-Benchは視覚言語モデルの構造的空間知性を評価するためのベンチマークである。
Benchは9000の動画検索用三脚で構成されており、各問題はリアルな3Dシーンに埋め込まれている。
実験結果から,最先端のVLMはSIRI-Benchでかなり苦労し,構造的空間推論の課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-17T13:40:00Z) - PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly [77.33429729761596]
物理理解と計画について視覚言語モデル(VLM)を評価するためのプログレッシブベンチマークであるPhyBlockを紹介する。
PhyBlockは、視覚質問回答(VQA)サンプルと並行して、新しい4段階の認知階層化タスクを統合する。
我々は21の最先端のVLMをベンチマークし、物理的に基盤化されたマルチステップ計画におけるその強みと限界を強調した。
論文 参考訳(メタデータ) (2025-06-10T11:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。