論文の概要: PlanBench-V: A Spatial Planning Map Benchmark for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.05744v1
- Date: Thu, 04 Jun 2026 06:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.588186
- Title: PlanBench-V: A Spatial Planning Map Benchmark for Vision-Language Models
- Title(参考訳): PlanBench-V:視覚言語モデルのための空間計画図ベンチマーク
- Authors: Minxin Chen, He Zhu, Junyou Su, Wen Wang, Yijie Deng, Wenjia Zhang,
- Abstract要約: 空間計画図の解釈において、視覚言語モデル(VLM)を評価するための最初の総合的なベンチマークであるPlanBench-Vを紹介する。
まず,プロのプランナーによる223の計画図と1629の質問応答ペアからなる専門家によるデータセットである空間計画地図データベース(SPMD)を構築した。
次に、認識、推論、アソシエーション、実装の4つの進歩的能力を評価する理論インフォームド・アセスメント・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.535782832272062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial planning maps are central to territorial governance, translating planning objectives, regulations, and spatial strategies into visual forms for decision-making, public communication, and institutional coordination. Their interpretation, however, requires fine-grained visual perception, spatial reasoning, and policy-informed professional judgment, creating major challenges for both human learners and AI systems. With the rapid progress of Vision-Language Models (VLMs), their use in urban planning analysis is gaining attention, yet existing multimodal benchmarks mainly target general visual understanding and overlook the domain-specific cognitive processes of planning practice. To address this gap, we introduce PlanBench-V, the first comprehensive benchmark for evaluating VLMs in spatial planning map interpretation. We first build the Spatial Planning Map Database (SPMD), an expert-annotated dataset of 223 planning maps and 1629 question-answer pairs curated by professional planners, covering diverse geographic regions and cartographic styles. We then propose a theory-informed evaluation framework assessing four progressive capabilities: Perception, Reasoning, Association, and Implementation, corresponding to the cognitive pipeline of planning map interpretation. Extensive experiments across two generations of VLMs show clear progress but persistent limitations. The best 2026 agentic reasoning model, Qwen3.6-Plus, substantially outperforms the best 2025 model, GPT-4o, by 27%. Nevertheless, all models still struggle with implementation-oriented tasks requiring evaluative judgment, policy sensitivity, and constraint-aware decision-making. These findings reveal fundamental limitations of current VLMs in professional planning contexts and highlight the need for domain-adaptive multimodal reasoning frameworks. Code and data are available at https://plangpt.github.io.
- Abstract(参考訳): 空間計画地図は、計画目標、規制、空間戦略を意思決定、公共通信、制度調整のための視覚形式に変換する領域統治の中心である。
しかし、その解釈には、きめ細かい視覚的知覚、空間的推論、およびポリシーにインフォームドされた専門的判断が必要であり、人間の学習者とAIシステムの両方にとって大きな課題を生み出している。
VLM(Vision-Language Models)の急速な進歩に伴い、都市計画分析におけるその利用が注目されているが、既存のマルチモーダルベンチマークは主に一般的な視覚的理解を目標とし、計画実践のドメイン固有の認知プロセスを見落としている。
このギャップに対処するために、空間計画地図解釈においてVLMを評価するための最初の総合的なベンチマークであるPlanBench-Vを紹介する。
まず,223の計画図と1629の質問応答対をプロのプランナーがキュレートし,多様な地域と地図スタイルを網羅した空間計画地図データベース(SPMD)を構築した。
そこで我々は,計画地図解釈の認知パイプラインに対応する,知覚,推論,アソシエーション,実装の4つの段階的能力を評価する理論インフォームド評価フレームワークを提案する。
VLMの2世代にわたる大規模な実験は、明確な進歩と永続的な限界を示している。
2026年最高のエージェント推論モデルであるQwen3.6-Plusは、2025年最高のモデルであるGPT-4oを27%上回っている。
それでも、すべてのモデルは、評価的判断、ポリシーの感度、制約に敏感な意思決定を必要とする実装指向のタスクに苦慮している。
これらの知見は、プロの計画文脈における現在のVLMの基本的限界を明らかにし、ドメイン適応型マルチモーダル推論フレームワークの必要性を強調している。
コードとデータはhttps://plangpt.github.io.comで公開されている。
関連論文リスト
- PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models [52.48858778580074]
計画は大規模言語モデル(LLM)の基本的な機能である
PlanningBenchは、評価とトレーニングの両方のためのスケーラブルで多様な検証可能な計画データを生成するためのフレームワークである。
論文 参考訳(メタデータ) (2026-05-20T08:10:15Z) - Scaling Multi-Agent Epistemic Planning through GNN-Derived Heuristics [0.9786469751894747]
マルチエージェント・エピステミック・プランニング(Multi-agent Epistemic Planning、MEP)は、物理的世界とエージェントの信念の両方を推論するための自律的な計画フレームワークである。
MEPでは、状態はKripke構造、すなわち有向ラベル付きグラフとして表現する必要がある。
我々は、グラフニューラルネットワーク(GNN)を用いて、てんかん状態のパターンや関係構造を学習し、計画プロセスの導出を行う。
論文 参考訳(メタデータ) (2025-08-18T11:26:20Z) - Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints [39.01715254437105]
本稿では,多面制約による計画課題を解決するための多面計画(MAoP)について紹介する。
MAoPは直接計画するのではなく、ストラテジストを活用して、さまざまな側面から事前計画を行い、プランナーのための計画青写真を提供する。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models [10.56421857293621]
そこで我々は,都市計画地図に特化して設計された,ドメイン固有の視覚言語モデルであるPlanGPT-VLを紹介した。
PlanGPT-VLは,(1)高品質なVQAデータ合成のためのPlanAnno-Vフレームワーク,(2)構造化検証による幻覚の低減のためのクリティカルポイント思考,(3)スーパーバイザードファインタニングと凍結視覚エンコーダパラメータを組み合わせた総合的なトレーニング手法,の3つの革新的アプローチを採用している。
論文 参考訳(メタデータ) (2025-05-20T15:14:47Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - A Planning Ontology to Represent and Exploit Planning Knowledge for Performance Efficiency [6.87593454486392]
我々は,エージェントを世界の初期状態から望ましい目標状態へ移動させる一連の行動を見つけることを目的として,自動計画の問題を考える。
利用可能なプランナと多様なプランナドメインが多数用意されていると仮定し、適切なプランナを特定し、ドメインのパフォーマンスを向上させるために活用できる不可欠な情報を持っている。
論文 参考訳(メタデータ) (2023-07-25T14:51:07Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。