論文の概要: Blueprint-Bench: Comparing spatial intelligence of LLMs, agents and image models
- arxiv url: http://arxiv.org/abs/2509.25229v1
- Date: Wed, 24 Sep 2025 23:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.180439
- Title: Blueprint-Bench: Comparing spatial intelligence of LLMs, agents and image models
- Title(参考訳): Blueprint-Bench: LLM, エージェント, 画像モデルの空間的インテリジェンスの比較
- Authors: Lukas Petersson, Axel Backlund, Axel Wennstöm, Hanna Petersson, Callum Sharrock, Arash Dabiri,
- Abstract要約: 本稿では,AIモデルの空間推論能力を評価するベンチマークであるBlueprint-Benchを紹介する。
アパートの写真を50のアパートのデータセットを用いて、正確な2次元フロアプランに変換する。
結果は、現在のAI能力に重大な盲点が浮かび上がっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Blueprint-Bench, a benchmark designed to evaluate spatial reasoning capabilities in AI models through the task of converting apartment photographs into accurate 2D floor plans. While the input modality (photographs) is well within the training distribution of modern multimodal models, the task of spatial reconstruction requires genuine spatial intelligence: inferring room layouts, understanding connectivity, and maintaining consistent scale. We evaluate leading language models (GPT-5, Claude 4 Opus, Gemini 2.5 Pro, Grok-4), image generation models (GPT-Image, NanoBanana), and agent systems (Codex CLI, Claude Code) on a dataset of 50 apartments with approximately 20 interior images each. Our scoring algorithm measures similarity between generated and ground-truth floor plans based on room connectivity graphs and size rankings. Results reveal a significant blind spot in current AI capabilities: most models perform at or below a random baseline, while human performance remains substantially superior. Image generation models particularly struggle with instruction following, while agent-based approaches with iterative refinement capabilities show no meaningful improvement over single-pass generation. Blueprint-Bench provides the first numerical framework for comparing spatial intelligence across different model architectures. We will continue evaluating new models as they are released and welcome community submissions, monitoring for the emergence of spatial intelligence in generalist AI systems.
- Abstract(参考訳): アパートの写真を正確な2Dフロアプランに変換するタスクを通じて、AIモデルの空間推論能力を評価するために設計されたベンチマークであるBlueprint-Benchを紹介する。
入力モダリティ(写真)は、現代のマルチモーダルモデルのトレーニング分布によく含まれているが、空間再構成のタスクは、部屋のレイアウトの推論、接続性の理解、一貫性のあるスケールの維持といった、真の空間的知性を必要とする。
GPT-5, Claude 4 Opus, Gemini 2.5 Pro, Grok-4)、画像生成モデル(GPT-Image, NanoBanana)、エージェントシステム(Codex CLI, Claude Code)を約20のインテリアイメージを持つ50の集合体で評価した。
評価アルゴリズムは, 室内接続グラフとサイズランキングに基づいて, 生成階と接地階の類似度を計測する。
ほとんどのモデルはランダムなベースライン以下で動作しますが、人間のパフォーマンスは依然としてかなり優れています。
画像生成モデルは命令に従うのに特に苦労するが、反復的改善機能を持つエージェントベースのアプローチはシングルパス生成よりも有意義な改善を示さない。
Blueprint-Benchは、異なるモデルアーキテクチャ間で空間的インテリジェンスを比較するための最初の数値フレームワークを提供する。
一般のAIシステムにおける空間知能の出現を監視しながら、新たなモデルのリリースを引き続き評価し、コミュニティの提出を歓迎する。
関連論文リスト
- 4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration [31.111439909825627]
既存の手法は通常、単純な観察を入力としてデータセットのアクション分布をモデル化する。
カオスの源泉への入力に、4D情報を効果的に統合する新しいアプローチである4D-VLAを提案する。
我々のモデルは既存の手法を常に上回り、より強い空間的理解と適応性を示す。
論文 参考訳(メタデータ) (2025-06-27T14:09:29Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Walk2Map: Extracting Floor Plans from Indoor Walk Trajectories [23.314557741879664]
室内を歩く人の軌跡からフロアプランを生成するデータ駆動型アプローチであるWalk2Mapを紹介します。
データ駆動慣性オドメトリーの進歩により、そのような最小限の入力データは、コンシューマレベルのスマートフォンのIMU読み取りから得ることができる。
スキャンした3d屋内モデルを用いてネットワークをトレーニングし、屋内歩行軌跡にカスケードな方法で適用する。
論文 参考訳(メタデータ) (2021-02-27T16:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。