論文の概要: CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks
- arxiv url: http://arxiv.org/abs/2406.13945v2
- Date: Mon, 23 Dec 2024 14:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:55:02.728335
- Title: CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks
- Title(参考訳): CityBench: 都市タスクにおける大規模言語モデルの能力評価
- Authors: Jie Feng, Jun Zhang, Tianhui Liu, Xin Zhang, Tianjian Ouyang, Junbo Yan, Yuwei Du, Siqi Guo, Yong Li,
- Abstract要約: 広範な一般知識と強力な推論能力を持つ大規模言語モデル(LLM)は、急速な開発と広範な応用が見られた。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを設計する。
我々は,CityBenchとして認識理解と意思決定の2つのカテゴリに8つの代表的都市タスクを設計する。
- 参考スコア(独自算出の注目度): 10.22654338686634
- License:
- Abstract: Recently, large language models (LLMs) with extensive general knowledge and powerful reasoning abilities have seen rapid development and widespread application. A systematic and reliable evaluation of LLMs or vision-language model (VLMs) is a crucial step in applying and developing them for various fields. There have been some early explorations about the usability of LLMs for limited urban tasks, but a systematic and scalable evaluation benchmark is still lacking. The challenge in constructing a systematic evaluation benchmark for urban research lies in the diversity of urban data, the complexity of application scenarios and the highly dynamic nature of the urban environment. In this paper, we design CityBench, an interactive simulator based evaluation platform, as the first systematic benchmark for evaluating the capabilities of LLMs for diverse tasks in urban research. First, we build CityData to integrate the diverse urban data and CitySimu to simulate fine-grained urban dynamics. Based on CityData and CitySimu, we design 8 representative urban tasks in 2 categories of perception-understanding and decision-making as the CityBench. With extensive results from 30 well-known LLMs and VLMs in 13 cities around the world, we find that advanced LLMs and VLMs can achieve competitive performance in diverse urban tasks requiring commonsense and semantic understanding abilities, e.g., understanding the human dynamics and semantic inference of urban images. Meanwhile, they fail to solve the challenging urban tasks requiring professional knowledge and high-level reasoning abilities, e.g., geospatial prediction and traffic control task. These observations provide valuable perspectives for utilizing and developing LLMs in the future. Codes are openly accessible via https://github.com/tsinghua-fib-lab/CityBench.
- Abstract(参考訳): 近年,広範な一般知識と強力な推論能力を持つ大規模言語モデル (LLM) が急速に開発され,広く応用されている。
LLMや視覚言語モデル(VLM)の体系的かつ信頼性の高い評価は、様々な分野に適用・開発するための重要なステップである。
限定的な都市作業におけるLLMのユーザビリティに関する初期の調査はいくつかあったが、体系的かつスケーラブルな評価ベンチマークはいまだに不足している。
都市研究のための体系的評価ベンチマークを構築する上での課題は、都市データの多様性、応用シナリオの複雑さ、都市環境の非常にダイナミックな性質である。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを,都市研究における多様なタスクに対するLCMの能力を評価するための最初の体系的ベンチマークとして設計する。
まずCityDataを構築し、多様な都市データとCitySimuを統合し、詳細な都市動態をシミュレートする。
CityDataとCitySimuに基づいて,CityBenchとして認識理解と意思決定の2つのカテゴリで8つの代表的な都市タスクを設計する。
世界中の13都市でよく知られたLLMとVLMの30の成果により、高度なLLMとVLMは、都市イメージの人間の力学と意味的推論を理解するなど、常識と意味的理解能力を必要とする多様な都市タスクにおいて、競争力を発揮することが判明した。
一方、専門家の知識と高レベルの推論能力を必要とする都市の課題、例えば地理空間予測や交通制御タスクの解決には失敗している。
これらの観察は、将来LSMを活用・開発するための貴重な視点を提供する。
コードはhttps://github.com/tsinghua-fib-lab/CityBench.comから公開されている。
関連論文リスト
- Collaborative Imputation of Urban Time Series through Cross-city Meta-learning [54.438991949772145]
メタ学習型暗黙的ニューラル表現(INR)を利用した新しい協調的計算パラダイムを提案する。
次に,モデルに依存しないメタ学習による都市間協調学習手法を提案する。
20のグローバル都市から得られた多様な都市データセットの実験は、我々のモデルの優れた計算性能と一般化可能性を示している。
論文 参考訳(メタデータ) (2025-01-20T07:12:40Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - CityGPT: Empowering Urban Spatial Cognition of Large Language Models [7.40606412920065]
強力な言語生成と推論機能を備えた大規模言語モデル(LLM)は、すでに多くのドメインで成功している。
しかし、物理世界のコーパスが不足し、訓練中に知識が不足しているため、都市空間における多くの現実的なタスクを解決できないのが普通である。
都市空間の理解と関連する都市課題の解決におけるLCMの能力向上のための体系的枠組みであるCityGPTを提案する。
論文 参考訳(メタデータ) (2024-06-20T02:32:16Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - UrbanLLM: Autonomous Urban Activity Planning and Management with Large Language Models [20.069378890478763]
UrbanLLMは、都市関連クエリを管理可能なサブタスクに分解することで問題を解決する。
サブタスクごとに適切なAIモデルを特定し、与えられたクエリに対する包括的な応答を生成する。
論文 参考訳(メタデータ) (2024-06-18T07:41:42Z) - Urban Generative Intelligence (UGI): A Foundational Platform for Agents
in Embodied City Environment [32.53845672285722]
複雑な多層ネットワークを特徴とする都市環境は、急速な都市化に直面している重要な課題に直面している。
近年、ビッグデータ、人工知能、都市コンピューティング、デジタル双生児が発展し、洗練された都市モデリングとシミュレーションの基礎を築いた。
本稿では,大規模言語モデル(LLM)を都市システムに統合した新しい基盤プラットフォームである都市生成知能(UGI)を提案する。
論文 参考訳(メタデータ) (2023-12-19T03:12:13Z) - Unified Data Management and Comprehensive Performance Evaluation for
Urban Spatial-Temporal Prediction [Experiment, Analysis & Benchmark] [78.05103666987655]
この研究は、多様な都市空間時間データセットにアクセスし活用する際の課題に対処する。
都市空間・時空間のビッグデータ用に設計された統合ストレージフォーマットであるアトミックファイルを導入し,40種類の多様なデータセットでその有効性を検証する。
多様なモデルとデータセットを使用して広範な実験を行い、パフォーマンスリーダーボードを確立し、有望な研究方向性を特定する。
論文 参考訳(メタデータ) (2023-08-24T16:20:00Z) - The Urban Toolkit: A Grammar-based Framework for Urban Visual Analytics [5.674216760436341]
都市問題の複雑な性質と利用可能なデータの圧倒的な量は、これらの取り組みを実用的な洞察に翻訳する上で大きな課題を提起している。
興味のある特徴を分析する際、都市の専門家は、異なるテーマ(例えば、日光アクセス、人口統計)と物理的(例えば、建物、ストリートネットワーク)のデータ層を変換し、統合し、視覚化しなければならない。
これにより、プログラマにとって視覚的なデータ探索とシステム実装が難しくなり、コンピュータ科学以外の都市の専門家にとって高い入り口障壁となる。
論文 参考訳(メタデータ) (2023-08-15T13:43:04Z) - Methodological Foundation of a Numerical Taxonomy of Urban Form [62.997667081978825]
本稿では, 生物系統学から得られた都市形態の数値分類法を提案する。
我々は同質の都市組織タイプを導出し、それら間の全体形態的類似性を決定することにより、都市形態の階層的分類を生成する。
フレーミングとプレゼンを行った後、プラハとアムステルダムの2都市でテストを行った。
論文 参考訳(メタデータ) (2021-04-30T12:47:52Z) - City limits in the age of smartphones and urban scaling [0.0]
都市計画は、都市システム全体にわたる都市境界を定義するための適切な基準をまだ欠いている。
ICTは、都市システムのより正確な記述を記述する可能性を提供する。
都市境界を定義するため,大量の携帯電話記録に計算手法を適用した。
論文 参考訳(メタデータ) (2020-05-06T17:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。