論文の概要: UrbanPlanBench: A Comprehensive Urban Planning Benchmark for Evaluating Large Language Models
- arxiv url: http://arxiv.org/abs/2504.21027v1
- Date: Wed, 23 Apr 2025 13:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 02:17:38.887687
- Title: UrbanPlanBench: A Comprehensive Urban Planning Benchmark for Evaluating Large Language Models
- Title(参考訳): UrbanPlanBench: 大規模言語モデル評価のための総合的都市計画ベンチマーク
- Authors: Yu Zheng, Longyi Liu, Yuming Lin, Jie Feng, Guozhen Zhang, Depeng Jin, Yong Li,
- Abstract要約: 都市計画における大規模言語モデル(LLM)の有効性を評価するためのベンチマークであるUrbanPlanBenchを導入する。
LLM間の計画的知識の獲得において,最も熟練したモデルでさえ,専門家の基準を満たしていないという大きな不均衡が明らかになる。
我々は,都市計画試験と教科書から得られた3万以上の指導ペアからなる,史上最大規模の微調整データセットであるUrbanPlanTextを提示する。
- 参考スコア(独自算出の注目度): 26.94010977379045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of Large Language Models (LLMs) holds promise for revolutionizing various fields traditionally dominated by human expertise. Urban planning, a professional discipline that fundamentally shapes our daily surroundings, is one such field heavily relying on multifaceted domain knowledge and experience of human experts. The extent to which LLMs can assist human practitioners in urban planning remains largely unexplored. In this paper, we introduce a comprehensive benchmark, UrbanPlanBench, tailored to evaluate the efficacy of LLMs in urban planning, which encompasses fundamental principles, professional knowledge, and management and regulations, aligning closely with the qualifications expected of human planners. Through extensive evaluation, we reveal a significant imbalance in the acquisition of planning knowledge among LLMs, with even the most proficient models falling short of meeting professional standards. For instance, we observe that 70% of LLMs achieve subpar performance in understanding planning regulations compared to other aspects. Besides the benchmark, we present the largest-ever supervised fine-tuning (SFT) dataset, UrbanPlanText, comprising over 30,000 instruction pairs sourced from urban planning exams and textbooks. Our findings demonstrate that fine-tuned models exhibit enhanced performance in memorization tests and comprehension of urban planning knowledge, while there exists significant room for improvement, particularly in tasks requiring domain-specific terminology and reasoning. By making our benchmark, dataset, and associated evaluation and fine-tuning toolsets publicly available at https://github.com/tsinghua-fib-lab/PlanBench, we aim to catalyze the integration of LLMs into practical urban planning, fostering a symbiotic collaboration between human expertise and machine intelligence.
- Abstract(参考訳): LLM(Large Language Models)の出現は、伝統的に人間の専門知識が支配する様々な分野に革命をもたらすと約束している。
都市計画(Urban Planning)は、日々の環境を根本的に形成する専門分野であり、多面的なドメイン知識と人間の専門家の経験に大きく依存している分野である。
LLMが都市計画において人間の実践者を助けることができる範囲は、まだ明らかにされていない。
本稿では,都市計画におけるLLMの有効性を評価するための総合的なベンチマークであるUrbanPlanBenchを紹介する。
広範に評価することで,LLM間の計画知識獲得における重要な不均衡が明らかとなり,最も熟練したモデルでさえ,専門家の基準を満たしていないことが明らかとなった。
例えば、LLMの70%は、他の側面と比較して計画規則の理解において劣等な性能を達成することを観察する。
本ベンチマークの他に,都市計画試験と教科書から得られた3万以上の指導ペアからなるSFTデータセットであるUrbanPlanTextを提示する。
本研究は, 都市計画知識の記憶化テストや理解において, 微調整モデルの性能が向上していることを示し, 特にドメイン固有の用語や推論を必要とするタスクにおいて, 改善の余地は大きいことを示した。
ベンチマーク、データセット、関連する評価、微調整ツールセットをhttps://github.com/tsinghua-fib-lab/PlanBenchで公開することにより、LLMの実用的な都市計画への統合を触媒し、人間の専門知識とマシンインテリジェンスとの共生的なコラボレーションを促進することを目指している。
関連論文リスト
- EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - CityGPT: Empowering Urban Spatial Cognition of Large Language Models [7.40606412920065]
強力な言語生成と推論機能を備えた大規模言語モデル(LLM)は、すでに多くのドメインで成功している。
しかし、物理世界のコーパスが不足し、訓練中に知識が不足しているため、都市空間における多くの現実的なタスクを解決できないのが普通である。
都市空間の理解と関連する都市課題の解決におけるLCMの能力向上のための体系的枠組みであるCityGPTを提案する。
論文 参考訳(メタデータ) (2024-06-20T02:32:16Z) - CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks [10.22654338686634]
広範な一般知識と強力な推論能力を持つ大規模言語モデル(LLM)は、急速な開発と広範な応用が見られた。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを設計する。
我々は,CityBenchとして認識理解と意思決定の2つのカテゴリに8つの代表的都市タスクを設計する。
論文 参考訳(メタデータ) (2024-06-20T02:25:07Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - PlanGPT: Enhancing Urban Planning with Tailored Language Model and
Efficient Retrieval [8.345858904808873]
汎用的な大規模言語モデルは、しばしばプランナーのニーズを満たすのに苦労する。
PlanGPTは、都市と空間計画に適した最初の大規模言語モデルである。
論文 参考訳(メタデータ) (2024-02-29T15:41:20Z) - Large language model empowered participatory urban planning [5.402147437950729]
本研究では,大規模言語モデル(LLM)を参加型プロセスに統合した革新的な都市計画手法を提案する。
このフレームワークは、LLMエージェントをベースとして、役割プレイ、共同生成、フィードバックで構成され、コミュニティレベルの土地利用タスクを1000の異なる関心事に対応させて解決する。
論文 参考訳(メタデータ) (2024-01-24T10:50:01Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - On the Planning Abilities of Large Language Models (A Critical
Investigation with a Proposed Benchmark) [30.223130782579336]
我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。
LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。
以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
論文 参考訳(メタデータ) (2023-02-13T21:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。