論文の概要: CityCube: Benchmarking Cross-view Spatial Reasoning on Vision-Language Models in Urban Environments
- arxiv url: http://arxiv.org/abs/2601.14339v1
- Date: Tue, 20 Jan 2026 13:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.109036
- Title: CityCube: Benchmarking Cross-view Spatial Reasoning on Vision-Language Models in Urban Environments
- Title(参考訳): CityCube:都市環境における視覚・言語モデルに基づくクロスビュー空間推論のベンチマーク
- Authors: Haotian Xu, Yue Hu, Zhengqiu Zhu, Chen Gao, Ziyou Wang, Junreng Rao, Wenhao Lu, Weishi Li, Quanjun Yin, Yong Li,
- Abstract要約: クロスビュー空間推論は、複雑な環境における空間的理解、メンタルシミュレーション、計画の基盤となる、具体化されたAIにとって不可欠である。
都市環境における現在のVLMのクロスビュー推論能力を調査するためのベンチマークであるCityCubeを紹介する。
包括的評価では、5つの認知次元と3つの空間的関係表現に分類される5,022個の注釈付きマルチビューQAペアが特徴的である。
- 参考スコア(独自算出の注目度): 18.04483763927635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view spatial reasoning is essential for embodied AI, underpinning spatial understanding, mental simulation and planning in complex environments. Existing benchmarks primarily emphasize indoor or street settings, overlooking the unique challenges of open-ended urban spaces characterized by rich semantics, complex geometries, and view variations. To address this, we introduce CityCube, a systematic benchmark designed to probe cross-view reasoning capabilities of current VLMs in urban settings. CityCube integrates four viewpoint dynamics to mimic camera movements and spans a wide spectrum of perspectives from multiple platforms, e.g., vehicles, drones and satellites. For a comprehensive assessment, it features 5,022 meticulously annotated multi-view QA pairs categorized into five cognitive dimensions and three spatial relation expressions. A comprehensive evaluation of 33 VLMs reveals a significant performance disparity with humans: even large-scale models struggle to exceed 54.1% accuracy, remaining 34.2% below human performance. By contrast, small-scale fine-tuned VLMs achieve over 60.0% accuracy, highlighting the necessity of our benchmark. Further analyses indicate the task correlations and fundamental cognitive disparity between VLMs and human-like reasoning.
- Abstract(参考訳): クロスビュー空間推論は、複雑な環境における空間的理解、メンタルシミュレーション、計画の基盤となる、具体化されたAIにとって不可欠である。
既存のベンチマークは主に屋内や街路の設定を強調しており、リッチなセマンティクス、複雑なジオメトリ、ビューのバリエーションによって特徴づけられるオープンエンドの都市空間の独特な課題を見下ろしている。
そこで我々は,都市環境における現在のVLMのクロスビュー推論能力の探索を目的とした,システマティックベンチマークであるCityCubeを紹介する。
CityCubeは4つの視点ダイナミクスを統合し、カメラの動きを模倣し、複数のプラットフォーム、例えば車、ドローン、衛星から幅広い視点にまたがる。
包括的評価では、5つの認知次元と3つの空間的関係表現に分類される5,022個の注釈付きマルチビューQAペアが特徴的である。
33個のVLMを総合的に評価すると、人間との大きな性能格差が示される: 大規模モデルでさえ54.1%の精度を達成できず、人間の性能より34.2%低いままである。
対照的に、小型の微調整VLMは60.0%以上の精度を実現しており、ベンチマークの必要性を強調している。
さらに、VLMと人間のような推論のタスク相関と基本的な認知的相違について分析した。
関連論文リスト
- UrbanFeel: A Comprehensive Benchmark for Temporal and Perceptual Understanding of City Scenes through Human Perspective [26.682345246235766]
UrbanFeelは、3つの認知的に進歩的な次元にまたがる、慎重に構築された視覚的質問からなる。
Gemini-2.5 Proは、人間のエキスパートレベルに近づいているため、全体的なパフォーマンスが最高である。
論文 参考訳(メタデータ) (2025-09-26T11:38:57Z) - How Well Do Vision--Language Models Understand Cities? A Comparative Study on Spatial Reasoning from Street-View Images [3.836101499114879]
都市のシーンは、オブジェクト、レイアウト、深さのキューに関するきめ細かい空間的推論を必要とする。
現在の視覚言語モデル(VLM)は、一般の場面で事前訓練されており、これらの能力を都市領域に伝達する能力は未探索のままである。
本研究では,VLMの新たな課題として都市空間推論を導入し,汎用モデルを専門分野に適用するための実践的経路として,合成データセットの構築を実証する。
論文 参考訳(メタデータ) (2025-08-29T12:21:57Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [12.945689517235264]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness [50.33343842822694]
MMPerspectiveはマルチモーダルな大言語モデルの視点理解を評価するために設計された最初のベンチマークである。
このベンチマークでは,実世界の2,711の合成画像と5,083の問合せ対でキー機能を調べている。
43の最先端MLLMの総合評価により,重要な限界が明らかになった。
論文 参考訳(メタデータ) (2025-05-26T18:20:22Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。