論文の概要: SpaRRTa: A Synthetic Benchmark for Evaluating Spatial Intelligence in Visual Foundation Models
- arxiv url: http://arxiv.org/abs/2601.11729v1
- Date: Fri, 16 Jan 2026 19:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.305002
- Title: SpaRRTa: A Synthetic Benchmark for Evaluating Spatial Intelligence in Visual Foundation Models
- Title(参考訳): SpaRRTa:ビジュアルファウンデーションモデルにおける空間知性評価のための総合ベンチマーク
- Authors: Turhan Can Kargin, Wojciech Jasiński, Adam Pardyl, Bartosz Zieliński, Marcin Przewięźlikowski,
- Abstract要約: Visual Foundation Models (VFM) は画像の意味的理解に優れているが、空間的推論能力は限られている。
最近の研究は、VFMトレーニングにいくつかの3Dタスク(深さ推定など)を組み込んでいる。
画像中の物体の相対的な位置を識別するVFMの能力を評価するSpaRRTa(Spatial Relation Recognition Task)ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 1.013466159542726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Foundation Models (VFMs), such as DINO and CLIP, excel in semantic understanding of images but exhibit limited spatial reasoning capabilities, which limits their applicability to embodied systems. As a result, recent work incorporates some 3D tasks (such as depth estimation) into VFM training. However, VFM performance remains inconsistent across other spatial tasks, raising the question of whether these models truly have spatial awareness or overfit to specific 3D objectives. To address this question, we introduce the Spatial Relation Recognition Task (SpaRRTa) benchmark, which evaluates the ability of VFMs to identify relative positions of objects in the image. Unlike traditional 3D objectives that focus on precise metric prediction (e.g., surface normal estimation), SpaRRTa probes a fundamental capability underpinning more advanced forms of human-like spatial understanding. SpaRRTa generates an arbitrary number of photorealistic images with diverse scenes and fully controllable object arrangements, along with freely accessible spatial annotations. Evaluating a range of state-of-the-art VFMs, we reveal significant disparities between their spatial reasoning abilities. Through our analysis, we provide insights into the mechanisms that support or hinder spatial awareness in modern VFMs. We hope that SpaRRTa will serve as a useful tool for guiding the development of future spatially aware visual models.
- Abstract(参考訳): DINOやCLIPのようなビジュアルファウンデーションモデル(VFM)は、イメージの意味的理解が優れているが、空間的推論能力は限られており、エンボディドシステムへの適用性が制限されている。
その結果、最近の研究は、VFMトレーニングにいくつかの3Dタスク(深さ推定など)を組み込んでいる。
しかしながら、VFMの性能は他の空間的タスクとは相容れないままであり、これらのモデルが空間的認識を真に持っているか、特定の3D目的に過度に適合しているかという疑問が提起されている。
この問題に対処するために、画像内のオブジェクトの相対的な位置を識別するVFMの能力を評価するSpaRRTa(Spatial Relation Recognition Task)ベンチマークを導入する。
正確な距離予測(例えば表面正規推定)に焦点を当てた従来の3D目標とは異なり、SpaRRTaは人間のような空間理解のより高度な形態を支える基本的な能力を探索する。
SpaRRTaは、様々なシーンと完全に制御可能なオブジェクトアレンジメントと、自由にアクセス可能な空間アノテーションを備えた任意の数のフォトリアリスティック画像を生成する。
最先端のVFMを評価した結果,空間的推論能力の相違が明らかとなった。
分析を通じて、現代のVFMにおける空間認識を支援するか妨げるメカニズムについての洞察を提供する。
SpaRRTaが将来空間的に認識される視覚モデルの開発を導く上で有用なツールになることを願っている。
関連論文リスト
- Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors [42.85605789984155]
空間的視覚的質問応答(VQA)において、最先端の空間的推論強化VLMを訓練する
本研究では,VLMの空間的推論能力を高めるためのフレームワークであるSpatialPINを提案する。
我々の空間推論型VLMは、空間的VQAの様々な形態でうまく機能し、ピックやスタック、軌道計画といった下流ロボット作業に役立てることができる。
論文 参考訳(メタデータ) (2024-03-18T17:38:29Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。