論文の概要: CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks
- arxiv url: http://arxiv.org/abs/2406.13945v2
- Date: Mon, 23 Dec 2024 14:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:55:02.728335
- Title: CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks
- Title(参考訳): CityBench: 都市タスクにおける大規模言語モデルの能力評価
- Authors: Jie Feng, Jun Zhang, Tianhui Liu, Xin Zhang, Tianjian Ouyang, Junbo Yan, Yuwei Du, Siqi Guo, Yong Li,
- Abstract要約: 広範な一般知識と強力な推論能力を持つ大規模言語モデル(LLM)は、急速な開発と広範な応用が見られた。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを設計する。
我々は,CityBenchとして認識理解と意思決定の2つのカテゴリに8つの代表的都市タスクを設計する。
- 参考スコア(独自算出の注目度): 10.22654338686634
- License:
- Abstract: Recently, large language models (LLMs) with extensive general knowledge and powerful reasoning abilities have seen rapid development and widespread application. A systematic and reliable evaluation of LLMs or vision-language model (VLMs) is a crucial step in applying and developing them for various fields. There have been some early explorations about the usability of LLMs for limited urban tasks, but a systematic and scalable evaluation benchmark is still lacking. The challenge in constructing a systematic evaluation benchmark for urban research lies in the diversity of urban data, the complexity of application scenarios and the highly dynamic nature of the urban environment. In this paper, we design CityBench, an interactive simulator based evaluation platform, as the first systematic benchmark for evaluating the capabilities of LLMs for diverse tasks in urban research. First, we build CityData to integrate the diverse urban data and CitySimu to simulate fine-grained urban dynamics. Based on CityData and CitySimu, we design 8 representative urban tasks in 2 categories of perception-understanding and decision-making as the CityBench. With extensive results from 30 well-known LLMs and VLMs in 13 cities around the world, we find that advanced LLMs and VLMs can achieve competitive performance in diverse urban tasks requiring commonsense and semantic understanding abilities, e.g., understanding the human dynamics and semantic inference of urban images. Meanwhile, they fail to solve the challenging urban tasks requiring professional knowledge and high-level reasoning abilities, e.g., geospatial prediction and traffic control task. These observations provide valuable perspectives for utilizing and developing LLMs in the future. Codes are openly accessible via https://github.com/tsinghua-fib-lab/CityBench.
- Abstract(参考訳): 近年,広範な一般知識と強力な推論能力を持つ大規模言語モデル (LLM) が急速に開発され,広く応用されている。
LLMや視覚言語モデル(VLM)の体系的かつ信頼性の高い評価は、様々な分野に適用・開発するための重要なステップである。
限定的な都市作業におけるLLMのユーザビリティに関する初期の調査はいくつかあったが、体系的かつスケーラブルな評価ベンチマークはいまだに不足している。
都市研究のための体系的評価ベンチマークを構築する上での課題は、都市データの多様性、応用シナリオの複雑さ、都市環境の非常にダイナミックな性質である。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを,都市研究における多様なタスクに対するLCMの能力を評価するための最初の体系的ベンチマークとして設計する。
まずCityDataを構築し、多様な都市データとCitySimuを統合し、詳細な都市動態をシミュレートする。
CityDataとCitySimuに基づいて,CityBenchとして認識理解と意思決定の2つのカテゴリで8つの代表的な都市タスクを設計する。
世界中の13都市でよく知られたLLMとVLMの30の成果により、高度なLLMとVLMは、都市イメージの人間の力学と意味的推論を理解するなど、常識と意味的理解能力を必要とする多様な都市タスクにおいて、競争力を発揮することが判明した。
一方、専門家の知識と高レベルの推論能力を必要とする都市の課題、例えば地理空間予測や交通制御タスクの解決には失敗している。
これらの観察は、将来LSMを活用・開発するための貴重な視点を提供する。
コードはhttps://github.com/tsinghua-fib-lab/CityBench.comから公開されている。
関連論文リスト
- What can LLM tell us about cities? [6.405546719612814]
本研究では,世界規模で都市や地域に関する知識を提供する上で,大規模言語モデル(LLM)の能力について検討する。
実験の結果、LLMはグローバルな都市に広範に多様な知識を組み込んでおり、MLモデルはLLMに由来する特徴に基づいて一貫して訓練され、予測精度が向上していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T09:07:56Z) - OpenCity: A Scalable Platform to Simulate Urban Activities with Massive LLM Agents [10.919679349212426]
大規模言語モデル(LLM)は、前例のないリアリズムで都市活動をシミュレートできるLLMエージェントの開発につながっている。
システムと迅速な効率の両方に最適化されたスケーラブルなシミュレーションプラットフォームであるOpenCityを提案する。
OpenCityは、エージェント毎の600倍のシミュレーション時間、LLM要求の70%の削減、トークン使用の50%の削減を実現している。
論文 参考訳(メタデータ) (2024-10-11T13:52:35Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - CityGPT: Empowering Urban Spatial Cognition of Large Language Models [7.40606412920065]
強力な言語生成と推論機能を備えた大規模言語モデル(LLM)は、すでに多くのドメインで成功している。
しかし、物理世界のコーパスが不足し、訓練中に知識が不足しているため、都市空間における多くの現実的なタスクを解決できないのが普通である。
都市空間の理解と関連する都市課題の解決におけるLCMの能力向上のための体系的枠組みであるCityGPTを提案する。
論文 参考訳(メタデータ) (2024-06-20T02:32:16Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - On the Planning Abilities of Large Language Models (A Critical
Investigation with a Proposed Benchmark) [30.223130782579336]
我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。
LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。
以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
論文 参考訳(メタデータ) (2023-02-13T21:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。