論文の概要: PlanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations
- arxiv url: http://arxiv.org/abs/2507.07644v1
- Date: Thu, 10 Jul 2025 11:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.372669
- Title: PlanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations
- Title(参考訳): PlanQA:構造化表現を用いたLLMにおける空間推論のベンチマーク
- Authors: Fedor Rodionov, Abdelrahman Eldesokey, Michael Birsak, John Femiani, Bernard Ghanem, Peter Wonka,
- Abstract要約: PlanQAは、大規模言語モデルにおける幾何学的および空間的推論を評価するための診断ベンチマークである。
このベンチマークでは、計量やトポロジカルな推論だけでなく、内部設計の制約もテストする多様な質問タイプが明らかになった。
- 参考スコア(独自算出の注目度): 75.04864582433879
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce PlanQA, a diagnostic benchmark for evaluating geometric and spatial reasoning in large-language models (LLMs). PlanQA is grounded in structured representations of indoor scenes, such as kitchens, living rooms, and bedrooms, encoded in a symbolic format (e.g., JSON, XML layouts). The benchmark includes diverse question types that test not only metric and topological reasoning (e.g., distance, visibility, shortest paths) but also interior design constraints such as affordance, clearance, balance, and usability. Our results across a variety of frontier open-source and commercial LLMs show that while models may succeed in shallow queries, they often fail to simulate physical constraints, preserve spatial coherence, or generalize under layout perturbation. PlanQA uncovers a clear blind spot in today's LLMs: they do not consistently reason about real-world layouts. We hope that this benchmark inspires new work on language models that can accurately infer and manipulate spatial and geometric properties in practical settings.
- Abstract(参考訳): 大規模言語モデル(LLM)における幾何学的および空間的推論を評価するための診断ベンチマークであるPlanQAを紹介する。
PlanQAは、キッチン、リビングルーム、寝室などの屋内シーンの構造化された表現に基づいており、象徴的なフォーマット(JSON、XMLレイアウトなど)でエンコードされている。
このベンチマークには、計量やトポロジカルな推論(例えば距離、可視性、最短経路)だけでなく、可視性、クリアランス、バランス、ユーザビリティといったインテリアデザインの制約をテストする様々な質問タイプが含まれている。
様々なフロンティアのオープンソースおよび商用LCMにおける結果から、モデルが浅いクエリで成功する一方で、物理的制約をシミュレートしたり、空間コヒーレンスを保ったり、レイアウトの摂動の下で一般化することができないことが分かる。
PlanQAは、今日のLLMで明らかな盲点を明らかにしている。
このベンチマークは、実用的な設定で空間的および幾何学的性質を正確に推論し、操作できる言語モデルに関する新しい研究を刺激することを期待している。
関連論文リスト
- Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Does Spatial Cognition Emerge in Frontier Models? [56.47912101304053]
本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。
その結果、現代のフロンティアモデルは動物の空間知能に劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T01:41:49Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning [9.461626534488117]
大規模言語モデル(LLM)は幅広いタスクで顕著な成功を収めた。
我々は、$textbfP$ath $textbfP$lanning from $textbfN$atural $textbfL$anguageという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-10-05T01:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。