論文の概要: ArchSIBench: Benchmarking the Architectural Spatial Intelligence of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.20837v1
- Date: Wed, 20 May 2026 07:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.553671
- Title: ArchSIBench: Benchmarking the Architectural Spatial Intelligence of Vision-Language Models
- Title(参考訳): ArchSIBench: 視覚-言語モデルのアーキテクチャ空間知能のベンチマーク
- Authors: Qirui Shen, Wenda Wang, Jiachen Lu, Zilong Huang, Jin Bai, Lei He, Hongxuan Chen, Weixin Huang,
- Abstract要約: ArchSIBenchはアーキテクチャ、認知科学、心理学の視点に基づくアーキテクチャ空間知能のベンチマークである。
ArchSIBenchは、知覚、推論、ナビゲーション、変換、構成の5つのコアディメンションをカバーしており、17のきめ細かいサブタスクで構成されている。
様々な視覚言語モデル(VLM)を評価し,ほとんどのモデルにおける空間的インテリジェンス(空間的インテリジェンス)は,人間のベースラインとは大きく異なることを示す。
- 参考スコア(独自算出の注目度): 16.656416066183887
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Architectural spatial intelligence, the ability to recognize and infer architectural space, is fundamental to tasks such as robot navigation, embodied interaction, and 3D scene understanding and generation. Although extensive research has evaluated the basic spatial skills of Vision-Language Models (VLMs) such as relative orientation, distance comparison, and object counting, these tasks cover only the most elementary levels of spatial cognition and largely overlook higher-level cognition of architectural space, including layout understanding, circulation patterns, and functional zoning. In this work, we present ArchSIBench, a Benchmark for Architectural Spatial Intelligence based on the perspectives from architecture, cognitive science, and psychology. ArchSIBench covers five core dimensions: perception, reasoning, navigation, transformation, and configuration, comprising 17 fine-grained subtasks. Through careful manual annotation by experts with architectural backgrounds, we construct 3,000 question-answer pairs to enable comprehensive evaluation of architectural spatial intelligence. Based on ArchSIBench, we evaluate various VLMs and find that the architectural spatial intelligence of most models shows significant differences from human baselines; additionally, models exhibit substantial variability across capability dimensions. Some state-of-the-art models can approach the level of human evaluators without architectural training. However, a clear gap remains compared to human evaluators with architectural training, particularly in spatial transformation and configuration reasoning. We believe that ArchSIBench will provide important insights and systematic resources for measuring and advancing the architectural spatial intelligence of VLMs. The dataset and code are available at https://huggingface.co/datasets/ArchSIBench/ArchSIBench.
- Abstract(参考訳): 建築空間の認識と推論能力である建築空間知能は、ロボットナビゲーション、具体的相互作用、三次元シーンの理解と生成といったタスクに基本的である。
視覚・言語モデル(VLM)の基本的空間的スキル(相対方向、距離比較、オブジェクトカウントなど)は広く評価されているが、これらのタスクは空間的認知の最も基本的なレベルのみをカバーし、レイアウト理解、循環パターン、機能的ゾーニングなどのアーキテクチャ空間の高レベル認知をほとんど見落としている。
本稿では,建築,認知科学,心理学の視点に基づく建築空間知能ベンチマークであるArchSIBenchを紹介する。
ArchSIBenchは、知覚、推論、ナビゲーション、変換、構成の5つのコアディメンションをカバーしており、17のきめ細かいサブタスクで構成されている。
建築背景の専門家による手作業による注意深い注釈を通じて,3000の質問応答ペアを構築し,建築空間知能の包括的評価を可能にする。
ArchSIBenchに基づいて様々なVLMを評価し,多くのモデルの空間的インテリジェンスが人間のベースラインと有意な違いを示すこと,また,モデルがキャパシティディメンション間で有意な変動を示すことを見出した。
最先端のモデルの中には、建築訓練なしで人間の評価者レベルにアプローチできるものもある。
しかし、特に空間変換や構成推論において、建築訓練を行う人間の評価者と比較して明らかなギャップが残っている。
VLMの空間的インテリジェンスを計測・向上するために,ArchSIBenchが重要な洞察と体系的資源を提供すると考えている。
データセットとコードはhttps://huggingface.co/datasets/ArchSIBench/ArchSIBenchで公開されている。
関連論文リスト
- Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark [68.52969403388082]
人間は自然に4D空間知能を持ち、推論能力の幅広い範囲を支えている。
MLLM(Multimodal Large Language Models)は,人間レベル4次元空間知能をどの程度達成できるのか?
本研究では,MLLMの4次元空間推論能力を評価するために,多目的な4次元空間インテリジェンスベンチマークであるSpatial4D-Benchを提案する。
論文 参考訳(メタデータ) (2025-12-31T19:56:51Z) - ArchGPT: Understanding the World's Architectures with Large Multimodal Models [6.504675786709239]
本稿では,マルチモーダルな視覚的質問応答(VQA)モデルであるArchGPTを提案する。
このパイプラインはArch-300Kというドメイン特化データセットを約315,000枚取得する。
論文 参考訳(メタデータ) (2025-09-25T07:49:43Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z) - Evaluation of Architectural Synthesis Using Generative AI [49.1574468325115]
本稿では,GPT-4o と Claude 3.5 の2つのシステムの比較評価を行った。
Palladio's Four Books of Architecture (1965) のヴィラ・ロトンダ (Villa Rotonda) とパラッツォ・ポルト (Palazo Porto) の2つの建物についてケーススタディを行った。
本研究では,(1)図面から建物の2次元および3次元表現を解釈し,(2)CADソフトウェアスクリプトに建物をエンコードし,(3)アウトプットに基づく自己改善を行うシステムの能力を評価する。
論文 参考訳(メタデータ) (2025-03-04T18:39:28Z) - Does Unsupervised Architecture Representation Learning Help Neural
Architecture Search? [22.63641173256389]
既存のニューラルアーキテクチャサーチ(NAS)手法は、スケールが良くない離散符号化を用いてニューラルアーキテクチャをエンコードするか、アーキテクチャ表現を共同で学習し、探索バイアスを引き起こすような表現上でアーキテクチャ探索を最適化するための教師付き学習ベースの手法を採用する。
アーキテクチャ表現学習と探索が組み合わさっていれば,ニューラルネットワークの構造的特性を潜時空間に保持することは困難であり,その結果,探索性能は低下する。
論文 参考訳(メタデータ) (2020-06-12T04:15:34Z) - EgoMap: Projective mapping and structured egocentric memory for Deep RL [14.77454374243818]
EgoMapは空間的に構造化されたニューラルメモリアーキテクチャである。
深層強化学習エージェントの性能を3D環境で強化する。
メモリが構造化されたアートエージェントの標準的なリカレントエージェントと状態の両方に優れることを示す。
論文 参考訳(メタデータ) (2020-01-24T09:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。