論文の概要: CityBench: Evaluating the Capabilities of Large Language Model as World Model
- arxiv url: http://arxiv.org/abs/2406.13945v1
- Date: Thu, 20 Jun 2024 02:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:36:50.146633
- Title: CityBench: Evaluating the Capabilities of Large Language Model as World Model
- Title(参考訳): CityBench: 世界モデルとしての大規模言語モデルの能力を評価する
- Authors: Jie Feng, Jun Zhang, Junbo Yan, Xin Zhang, Tianjian Ouyang, Tianhui Liu, Yuwei Du, Siqi Guo, Yong Li,
- Abstract要約: 強力な一般化能力を持つ大規模言語モデル(LLM)は、多くの領域で広く使われている。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを提案する。
本研究では,都市域におけるLLMの都市規模世界モデルとしての能力を評価するために,認識理解と意思決定の2つのカテゴリに7つのタスクを設計する。
- 参考スコア(独自算出の注目度): 10.22654338686634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with powerful generalization ability has been widely used in many domains. A systematic and reliable evaluation of LLMs is a crucial step in their development and applications, especially for specific professional fields. In the urban domain, there have been some early explorations about the usability of LLMs, but a systematic and scalable evaluation benchmark is still lacking. The challenge in constructing a systematic evaluation benchmark for the urban domain lies in the diversity of data and scenarios, as well as the complex and dynamic nature of cities. In this paper, we propose CityBench, an interactive simulator based evaluation platform, as the first systematic evaluation benchmark for the capability of LLMs for urban domain. First, we build CitySim to integrate the multi-source data and simulate fine-grained urban dynamics. Based on CitySim, we design 7 tasks in 2 categories of perception-understanding and decision-making group to evaluate the capability of LLMs as city-scale world model for urban domain. Due to the flexibility and ease-of-use of CitySim, our evaluation platform CityBench can be easily extended to any city in the world. We evaluate 13 well-known LLMs including open source LLMs and commercial LLMs in 13 cities around the world. Extensive experiments demonstrate the scalability and effectiveness of proposed CityBench and shed lights for the future development of LLMs in urban domain. The dataset, benchmark and source codes are openly accessible to the research community via https://github.com/tsinghua-fib-lab/CityBench
- Abstract(参考訳): 強力な一般化能力を持つ大規模言語モデル(LLM)は、多くの領域で広く使われている。
LLMの体系的かつ信頼性の高い評価は、特に専門分野の開発と応用において重要なステップである。
都市領域では、LSMのユーザビリティに関する初期の調査がいくつか行われているが、体系的でスケーラブルな評価ベンチマークはいまだに不足している。
都市領域の体系的評価ベンチマークを構築する上での課題は、データの多様性とシナリオ、および都市の複雑で動的な性質である。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを提案する。
まず、マルチソースデータを統合し、きめ細かい都市動態をシミュレートするためにCitySimを構築します。
CitySimをベースとして,都市域におけるLLMの都市規模世界モデルとしての能力を評価するために,認識理解と意思決定の2つのカテゴリに7つのタスクを設計する。
CitySimの柔軟性と使いやすさのため、私たちの評価プラットフォームCityBenchは世界中のどの都市にも容易に拡張できます。
世界中の13都市において,オープンソースのLLMや商用LLMを含む13の有名なLLMを評価した。
都市域におけるLCMの今後の発展に向けて,提案するCityBenchとShed Lightのスケーラビリティと有効性を示す大規模な実験を行った。
データセット、ベンチマーク、ソースコードは、https://github.com/tsinghua-fib-lab/CityBenchを通じて、研究コミュニティに公開公開されている。
関連論文リスト
- Collaborative Imputation of Urban Time Series through Cross-city Meta-learning [54.438991949772145]
メタ学習型暗黙的ニューラル表現(INR)を利用した新しい協調的計算パラダイムを提案する。
次に,モデルに依存しないメタ学習による都市間協調学習手法を提案する。
20のグローバル都市から得られた多様な都市データセットの実験は、我々のモデルの優れた計算性能と一般化可能性を示している。
論文 参考訳(メタデータ) (2025-01-20T07:12:40Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - CityGPT: Empowering Urban Spatial Cognition of Large Language Models [7.40606412920065]
強力な言語生成と推論機能を備えた大規模言語モデル(LLM)は、すでに多くのドメインで成功している。
しかし、物理世界のコーパスが不足し、訓練中に知識が不足しているため、都市空間における多くの現実的なタスクを解決できないのが普通である。
都市空間の理解と関連する都市課題の解決におけるLCMの能力向上のための体系的枠組みであるCityGPTを提案する。
論文 参考訳(メタデータ) (2024-06-20T02:32:16Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - UrbanLLM: Autonomous Urban Activity Planning and Management with Large Language Models [20.069378890478763]
UrbanLLMは、都市関連クエリを管理可能なサブタスクに分解することで問題を解決する。
サブタスクごとに適切なAIモデルを特定し、与えられたクエリに対する包括的な応答を生成する。
論文 参考訳(メタデータ) (2024-06-18T07:41:42Z) - Urban Generative Intelligence (UGI): A Foundational Platform for Agents
in Embodied City Environment [32.53845672285722]
複雑な多層ネットワークを特徴とする都市環境は、急速な都市化に直面している重要な課題に直面している。
近年、ビッグデータ、人工知能、都市コンピューティング、デジタル双生児が発展し、洗練された都市モデリングとシミュレーションの基礎を築いた。
本稿では,大規模言語モデル(LLM)を都市システムに統合した新しい基盤プラットフォームである都市生成知能(UGI)を提案する。
論文 参考訳(メタデータ) (2023-12-19T03:12:13Z) - Unified Data Management and Comprehensive Performance Evaluation for
Urban Spatial-Temporal Prediction [Experiment, Analysis & Benchmark] [78.05103666987655]
この研究は、多様な都市空間時間データセットにアクセスし活用する際の課題に対処する。
都市空間・時空間のビッグデータ用に設計された統合ストレージフォーマットであるアトミックファイルを導入し,40種類の多様なデータセットでその有効性を検証する。
多様なモデルとデータセットを使用して広範な実験を行い、パフォーマンスリーダーボードを確立し、有望な研究方向性を特定する。
論文 参考訳(メタデータ) (2023-08-24T16:20:00Z) - The Urban Toolkit: A Grammar-based Framework for Urban Visual Analytics [5.674216760436341]
都市問題の複雑な性質と利用可能なデータの圧倒的な量は、これらの取り組みを実用的な洞察に翻訳する上で大きな課題を提起している。
興味のある特徴を分析する際、都市の専門家は、異なるテーマ(例えば、日光アクセス、人口統計)と物理的(例えば、建物、ストリートネットワーク)のデータ層を変換し、統合し、視覚化しなければならない。
これにより、プログラマにとって視覚的なデータ探索とシステム実装が難しくなり、コンピュータ科学以外の都市の専門家にとって高い入り口障壁となる。
論文 参考訳(メタデータ) (2023-08-15T13:43:04Z) - Methodological Foundation of a Numerical Taxonomy of Urban Form [62.997667081978825]
本稿では, 生物系統学から得られた都市形態の数値分類法を提案する。
我々は同質の都市組織タイプを導出し、それら間の全体形態的類似性を決定することにより、都市形態の階層的分類を生成する。
フレーミングとプレゼンを行った後、プラハとアムステルダムの2都市でテストを行った。
論文 参考訳(メタデータ) (2021-04-30T12:47:52Z) - City limits in the age of smartphones and urban scaling [0.0]
都市計画は、都市システム全体にわたる都市境界を定義するための適切な基準をまだ欠いている。
ICTは、都市システムのより正確な記述を記述する可能性を提供する。
都市境界を定義するため,大量の携帯電話記録に計算手法を適用した。
論文 参考訳(メタデータ) (2020-05-06T17:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。