論文の概要: Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions
- arxiv url: http://arxiv.org/abs/2601.03590v1
- Date: Wed, 07 Jan 2026 05:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.129022
- Title: Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions
- Title(参考訳): LLMはピクセルなしで見ることができるか? テキスト記述から空間的知能のベンチマーク
- Authors: Zhongbin Guo, Zhen Yang, Yushan Li, Xinyue Zhang, Wenyu Gao, Jiacheng Wang, Chengzhi Li, Xiangrui Liu, Ping Jian,
- Abstract要約: 空間知能(SI)は視覚言語モデル(VLM)に大きく依存している
画素レベルの入力を必要としない大規模言語モデル(LLM)のSI性能を評価するために設計された新しいベンチマークであるSiT-Benchを紹介する。
空間的推論により性能が著しく向上し,LLMには潜在的世界モデリングの可能性があることが示唆された。
- 参考スコア(独自算出の注目度): 18.455501447828343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Spatial Intelligence (SI) have predominantly relied on Vision-Language Models (VLMs), yet a critical question remains: does spatial understanding originate from visual encoders or the fundamental reasoning backbone? Inspired by this question, we introduce SiT-Bench, a novel benchmark designed to evaluate the SI performance of Large Language Models (LLMs) without pixel-level input, comprises over 3,800 expert-annotated items across five primary categories and 17 subtasks, ranging from egocentric navigation and perspective transformation to fine-grained robotic manipulation. By converting single/multi-view scenes into high-fidelity, coordinate-aware textual descriptions, we challenge LLMs to perform symbolic textual reasoning rather than visual pattern matching. Evaluation results of state-of-the-art (SOTA) LLMs reveals that while models achieve proficiency in localized semantic tasks, a significant "spatial gap" remains in global consistency. Notably, we find that explicit spatial reasoning significantly boosts performance, suggesting that LLMs possess latent world-modeling potential. Our proposed dataset SiT-Bench serves as a foundational resource to foster the development of spatially-grounded LLM backbones for future VLMs and embodied agents. Our code and benchmark will be released at https://github.com/binisalegend/SiT-Bench .
- Abstract(参考訳): 空間知能(SI)の最近の進歩は視覚言語モデル(VLM)に大きく依存しているが、重要な疑問が残る。
この質問に触発されたSiT-Benchは、ピクセルレベルの入力を伴わない大規模言語モデル(LLM)のSI性能を評価するために設計された新しいベンチマークであり、5つの主要カテゴリと17のサブタスクにわたる3,800以上の専門家による注釈付き項目で構成されており、エゴセントリックなナビゲーションやパースペクティブ・トランスフォーメーション・トランスフォーメーションから、きめ細かいロボット操作まで様々である。
単一/複数ビューのシーンを高忠実で座標対応のテキスト記述に変換することで、視覚的パターンマッチングよりも象徴的なテキスト推論を行うLLMに挑戦する。
最新技術 (SOTA) LLM の評価結果から, 局所的セマンティックタスクの習熟度はモデルによって達成されるが, 大域的な整合性には大きな「空間ギャップ」が残っていることが判明した。
特に,空間的推論により性能が著しく向上し,LLMが潜在的世界モデリング能力を有することが示唆された。
提案するデータセットSiT-Benchは,将来のVLMおよびエンボディエージェントのための空間的に接地されたLCMバックボーンの開発を促進するための基盤資源として機能する。
コードとベンチマークはhttps://github.com/binisalegend/SiT-Bench で公開されます。
関連論文リスト
- VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents [12.383467162169703]
ゼロショットエージェントとしてMLLMを探索するための統一的評価フレームワークを提案する。
高度にモジュール化されたアクセシブルな設計で評価を単純化する。
我々は,CoT推論と自己言語によるベースラインエージェントの強化が,予期せぬ性能低下につながることを観察した。
論文 参考訳(メタデータ) (2025-12-31T13:21:21Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - Scaling Spatial Reasoning in MLLMs through Programmatic Data Synthesis [8.60591720958037]
VLM(Vision-Language Models)はスケーラブルだが構造的に剛性があり、手動のアノテーションは言語的に多様だが拡張不可能である。
本稿では,シミュレータと大規模モデルを活用したこのジレンマを克服する新しいフレームワークSP-RITEを紹介する。
我々は,3つのシミュレータ,11k以上のシーン,300k以上の画像/映像のインストラクションチューニングペアを含むデータセットをキュレートした。
我々のデータに基づいて訓練されたVLMは、複数の空間ベンチマークにおいて大きな性能向上を達成できることを実証する。
論文 参考訳(メタデータ) (2025-12-18T06:30:08Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。