論文の概要: FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations
- arxiv url: http://arxiv.org/abs/2507.07644v2
- Date: Mon, 06 Oct 2025 12:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.51429
- Title: FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations
- Title(参考訳): FloorplanQA:構造化表現を用いたLLMにおける空間推論のベンチマーク
- Authors: Fedor Rodionov, Abdelrahman Eldesokey, Michael Birsak, John Femiani, Bernard Ghanem, Peter Wonka,
- Abstract要約: FloorplanQAは、大規模言語モデルにおける空間的推論を評価するための診断ベンチマークである。
このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
- 参考スコア(独自算出の注目度): 78.65988445433844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce FloorplanQA, a diagnostic benchmark for evaluating spatial reasoning in large-language models (LLMs). FloorplanQA is grounded in structured representations of indoor scenes, such as (e.g., kitchens, living rooms, bedrooms, bathrooms, and others), encoded symbolically in JSON or XML layouts. The benchmark covers core spatial tasks, including distance measurement, visibility, path finding, and object placement within constrained spaces. Our results across a variety of frontier open-source and commercial LLMs reveal that while models may succeed in shallow queries, they often fail to respect physical constraints, preserve spatial coherence, though they remain mostly robust to small spatial perturbations. FloorplanQA uncovers a blind spot in today's LLMs: inconsistent reasoning about indoor layouts. We hope this benchmark inspires new work on language models that can accurately infer and manipulate spatial and geometric properties in practical settings.
- Abstract(参考訳): 大規模言語モデル(LLM)における空間的推論を評価するための診断ベンチマークであるFloorplanQAを紹介する。
FloorplanQAは、(例えば、キッチン、リビングルーム、寝室、浴室など)屋内シーンの構造化された表現に基礎を置いており、JSONやXMLレイアウトで象徴的にエンコードされている。
このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
様々なフロンティアのオープンソースおよび商用LCMの成果は、モデルが浅いクエリで成功する一方で、物理的制約を尊重せず、空間的コヒーレンスを保ちながら、ほとんどは小さな空間的摂動に対して頑健であることを示している。
FloorplanQAは、今日のLLMで盲点を発見した。
このベンチマークは、実用的な設定で空間的および幾何学的性質を正確に推論し、操作できる言語モデルに関する新しい研究を刺激することを期待している。
関連論文リスト
- Linear Spatial World Models Emerge in Large Language Models [4.9185678564997355]
線形空間世界モデルに対して,大規模言語モデルが暗黙的に符号化されているかを検討する。
本研究では,空間空間モデルのための形式的枠組みを導入し,そのような構造が文脈埋め込みに現れるかどうかを評価する。
この結果から,LLMが線形空間世界モデルを符号化する証拠が得られた。
論文 参考訳(メタデータ) (2025-06-03T15:31:00Z) - Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Does Spatial Cognition Emerge in Frontier Models? [56.47912101304053]
本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。
その結果、現代のフロンティアモデルは動物の空間知能に劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T01:41:49Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning [9.461626534488117]
大規模言語モデル(LLM)は幅広いタスクで顕著な成功を収めた。
我々は、$textbfP$ath $textbfP$lanning from $textbfN$atural $textbfL$anguageという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-10-05T01:42:16Z) - Learning Models as Functionals of Signed-Distance Fields for
Manipulation Planning [51.74463056899926]
本研究では,シーン内のオブジェクトを表す符号付き距離場の目的を学習する,最適化に基づく操作計画フレームワークを提案する。
オブジェクトを符号付き距離場として表現することは、ポイントクラウドや占有率の表現よりも高い精度で、様々なモデルの学習と表現を可能にする。
論文 参考訳(メタデータ) (2021-10-02T12:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。