論文の概要: Understanding Space Is Rocket Science - Only Top Reasoning Models Can Solve Spatial Understanding Tasks
- arxiv url: http://arxiv.org/abs/2509.02175v1
- Date: Tue, 02 Sep 2025 10:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.998824
- Title: Understanding Space Is Rocket Science - Only Top Reasoning Models Can Solve Spatial Understanding Tasks
- Title(参考訳): 宇宙を理解することはロケット科学だ - 宇宙理解の課題を解決できるのは最上位の推論モデルのみ
- Authors: Nils Hoehing, Mayug Maniparambil, Ellen Rushe, Noel E. O'Connor, Anthony Ventresque,
- Abstract要約: 本稿では,空間的関係理解のためのオープンソースのコントラスト付きVLMベンチマークを提案する。
RocketScienceは完全に新しい現実世界の画像テキストペアで構成されている。
その結果,オープンソースおよびフロンティア商用VLMにおける空間的関係理解の欠如が示唆された。
- 参考スコア(独自算出の注目度): 9.23437069873238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose RocketScience, an open-source contrastive VLM benchmark that tests for spatial relation understanding. It is comprised of entirely new real-world image-text pairs covering mostly relative spatial understanding and the order of objects. The benchmark is designed to be very easy for humans and hard for the current generation of VLMs, and this is empirically verified. Our results show a striking lack of spatial relation understanding in open source and frontier commercial VLMs and a surprisingly high performance of reasoning models. Additionally, we perform a disentanglement analysis to separate the contributions of object localization and spatial reasoning in chain-of-thought-based models and find that the performance on the benchmark is bottlenecked by spatial reasoning and not object localization capabilities. We release the dataset with a CC-BY-4.0 license and make the evaluation code available at: https://github.com/nilshoehing/rocketscience
- Abstract(参考訳): 空間的関係理解のための検証を行うオープンソースコントラストVLMベンチマークであるRocketScienceを提案する。
これは、ほとんど相対的な空間的理解とオブジェクトの順序をカバーする、全く新しい実世界の画像テキストペアで構成されている。
このベンチマークは人間にとって非常に簡単で、現在の世代のVLMでは難しいように設計されており、これは実証的に検証されている。
本研究は,オープンソースおよびフロンティア商用VLMにおける空間的関係理解の著しい欠如と,驚くほど高い推論モデルの性能を示すものである。
さらに,オブジェクトの局所化と空間的推論の寄与をチェーン・オブ・ソートモデルで分離するアンタングル解析を行い,そのベンチマークの性能はオブジェクトの局所化機能ではなく空間的推論によってボトルネック化されていることを確認した。
CC-BY-4.0ライセンスでデータセットをリリースし、評価コードを以下で利用可能にします。
関連論文リスト
- LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks [22.011855291417856]
VLM(Vision-Language Models)が空間的関係を認識し空間的動きを知覚する方法は、まだ解明されていない。
本研究では,空間評価パイプラインを導入し,対応するベンチマークを構築する。
我々は、複数の最先端VLMの実験を行い、改善の余地があることを観察する。
論文 参考訳(メタデータ) (2025-07-27T08:31:24Z) - PlanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [75.04864582433879]
PlanQAは、大規模言語モデルにおける幾何学的および空間的推論を評価するための診断ベンチマークである。
このベンチマークでは、計量やトポロジカルな推論だけでなく、内部設計の制約もテストする多様な質問タイプが明らかになった。
論文 参考訳(メタデータ) (2025-07-10T11:16:48Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Does Spatial Cognition Emerge in Frontier Models? [56.47912101304053]
本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。
その結果、現代のフロンティアモデルは動物の空間知能に劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T01:41:49Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - Visual Spatial Reasoning [35.5155400193075]
66種類の空間的関係を持つ10k以上の自然なテキストイメージ対を含むデータセットを英語で提示する。
このデータセットは,参照フレームの変動など,難易度の高い言語現象を含むことを示す。
人間の天井は95%以上であり、最先端モデルは70%程度しか達成できない。
論文 参考訳(メタデータ) (2022-04-30T23:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。