論文の概要: CityBench: Evaluating the Capabilities of Large Language Model as World Model
- arxiv url: http://arxiv.org/abs/2406.13945v1
- Date: Thu, 20 Jun 2024 02:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-21 17:36:50.146633
- Title: CityBench: Evaluating the Capabilities of Large Language Model as World Model
- Title(参考訳): CityBench: 世界モデルとしての大規模言語モデルの能力を評価する
- Authors: Jie Feng, Jun Zhang, Junbo Yan, Xin Zhang, Tianjian Ouyang, Tianhui Liu, Yuwei Du, Siqi Guo, Yong Li,
- Abstract要約: 強力な一般化能力を持つ大規模言語モデル(LLM)は、多くの領域で広く使われている。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを提案する。
本研究では,都市域におけるLLMの都市規模世界モデルとしての能力を評価するために,認識理解と意思決定の2つのカテゴリに7つのタスクを設計する。
- 参考スコア(独自算出の注目度): 10.22654338686634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with powerful generalization ability has been widely used in many domains. A systematic and reliable evaluation of LLMs is a crucial step in their development and applications, especially for specific professional fields. In the urban domain, there have been some early explorations about the usability of LLMs, but a systematic and scalable evaluation benchmark is still lacking. The challenge in constructing a systematic evaluation benchmark for the urban domain lies in the diversity of data and scenarios, as well as the complex and dynamic nature of cities. In this paper, we propose CityBench, an interactive simulator based evaluation platform, as the first systematic evaluation benchmark for the capability of LLMs for urban domain. First, we build CitySim to integrate the multi-source data and simulate fine-grained urban dynamics. Based on CitySim, we design 7 tasks in 2 categories of perception-understanding and decision-making group to evaluate the capability of LLMs as city-scale world model for urban domain. Due to the flexibility and ease-of-use of CitySim, our evaluation platform CityBench can be easily extended to any city in the world. We evaluate 13 well-known LLMs including open source LLMs and commercial LLMs in 13 cities around the world. Extensive experiments demonstrate the scalability and effectiveness of proposed CityBench and shed lights for the future development of LLMs in urban domain. The dataset, benchmark and source codes are openly accessible to the research community via https://github.com/tsinghua-fib-lab/CityBench
- Abstract(参考訳): 強力な一般化能力を持つ大規模言語モデル(LLM)は、多くの領域で広く使われている。
LLMの体系的かつ信頼性の高い評価は、特に専門分野の開発と応用において重要なステップである。
都市領域では、LSMのユーザビリティに関する初期の調査がいくつか行われているが、体系的でスケーラブルな評価ベンチマークはいまだに不足している。
都市領域の体系的評価ベンチマークを構築する上での課題は、データの多様性とシナリオ、および都市の複雑で動的な性質である。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを提案する。
まず、マルチソースデータを統合し、きめ細かい都市動態をシミュレートするためにCitySimを構築します。
CitySimをベースとして,都市域におけるLLMの都市規模世界モデルとしての能力を評価するために,認識理解と意思決定の2つのカテゴリに7つのタスクを設計する。
CitySimの柔軟性と使いやすさのため、私たちの評価プラットフォームCityBenchは世界中のどの都市にも容易に拡張できます。
世界中の13都市において,オープンソースのLLMや商用LLMを含む13の有名なLLMを評価した。
都市域におけるLCMの今後の発展に向けて,提案するCityBenchとShed Lightのスケーラビリティと有効性を示す大規模な実験を行った。
データセット、ベンチマーク、ソースコードは、https://github.com/tsinghua-fib-lab/CityBenchを通じて、研究コミュニティに公開公開されている。
関連論文リスト
- Urban Computing in the Era of Large Language Models [41.50492781046065]
本稿では,大規模言語モデル(LLM)と都市コンピューティングの交わりについて検討する。
我々は,LLMの進化とコア技術について,簡潔に概説する。
我々は、交通、公共安全、環境モニタリングなど、主要都市領域にまたがる応用を調査する。
論文 参考訳(メタデータ) (2025-04-02T05:12:13Z) - Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap [51.198001060683296]
大型言語モデル(LLM)は、輸送上の課題に対処するための変革的な可能性を提供する。
LLM4TRは,交通におけるLSMの役割を体系的に分類する概念的枠組みである。
それぞれの役割について,交通予測や自律運転,安全分析,都市移動最適化など,さまざまな応用について検討した。
論文 参考訳(メタデータ) (2025-03-27T11:56:27Z) - Collaborative Imputation of Urban Time Series through Cross-city Meta-learning [54.438991949772145]
メタ学習型暗黙的ニューラル表現(INR)を利用した新しい協調的計算パラダイムを提案する。
次に,モデルに依存しないメタ学習による都市間協調学習手法を提案する。
20のグローバル都市から得られた多様な都市データセットの実験は、我々のモデルの優れた計算性能と一般化可能性を示している。
論文 参考訳(メタデータ) (2025-01-20T07:12:40Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - What can LLM tell us about cities? [6.405546719612814]
本研究では,世界規模で都市や地域に関する知識を提供する上で,大規模言語モデル(LLM)の能力について検討する。
実験の結果、LLMはグローバルな都市に広範に多様な知識を組み込んでおり、MLモデルはLLMに由来する特徴に基づいて一貫して訓練され、予測精度が向上していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T09:07:56Z) - OpenCity: A Scalable Platform to Simulate Urban Activities with Massive LLM Agents [10.919679349212426]
大規模言語モデル(LLM)は、前例のないリアリズムで都市活動をシミュレートできるLLMエージェントの開発につながっている。
システムと迅速な効率の両方に最適化されたスケーラブルなシミュレーションプラットフォームであるOpenCityを提案する。
OpenCityは、エージェント毎の600倍のシミュレーション時間、LLM要求の70%の削減、トークン使用の50%の削減を実現している。
論文 参考訳(メタデータ) (2024-10-11T13:52:35Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - CityGPT: Empowering Urban Spatial Cognition of Large Language Models [7.40606412920065]
強力な言語生成と推論機能を備えた大規模言語モデル(LLM)は、すでに多くのドメインで成功している。
しかし、物理世界のコーパスが不足し、訓練中に知識が不足しているため、都市空間における多くの現実的なタスクを解決できないのが普通である。
都市空間の理解と関連する都市課題の解決におけるLCMの能力向上のための体系的枠組みであるCityGPTを提案する。
論文 参考訳(メタデータ) (2024-06-20T02:32:16Z) - UrbanLLM: Autonomous Urban Activity Planning and Management with Large Language Models [20.069378890478763]
UrbanLLMは、都市関連クエリを管理可能なサブタスクに分解することで問題を解決する。
サブタスクごとに適切なAIモデルを特定し、与えられたクエリに対する包括的な応答を生成する。
論文 参考訳(メタデータ) (2024-06-18T07:41:42Z) - Urban Generative Intelligence (UGI): A Foundational Platform for Agents
in Embodied City Environment [32.53845672285722]
複雑な多層ネットワークを特徴とする都市環境は、急速な都市化に直面している重要な課題に直面している。
近年、ビッグデータ、人工知能、都市コンピューティング、デジタル双生児が発展し、洗練された都市モデリングとシミュレーションの基礎を築いた。
本稿では,大規模言語モデル(LLM)を都市システムに統合した新しい基盤プラットフォームである都市生成知能(UGI)を提案する。
論文 参考訳(メタデータ) (2023-12-19T03:12:13Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - The Urban Toolkit: A Grammar-based Framework for Urban Visual Analytics [5.674216760436341]
都市問題の複雑な性質と利用可能なデータの圧倒的な量は、これらの取り組みを実用的な洞察に翻訳する上で大きな課題を提起している。
興味のある特徴を分析する際、都市の専門家は、異なるテーマ(例えば、日光アクセス、人口統計)と物理的(例えば、建物、ストリートネットワーク)のデータ層を変換し、統合し、視覚化しなければならない。
これにより、プログラマにとって視覚的なデータ探索とシステム実装が難しくなり、コンピュータ科学以外の都市の専門家にとって高い入り口障壁となる。
論文 参考訳(メタデータ) (2023-08-15T13:43:04Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - On the Planning Abilities of Large Language Models (A Critical
Investigation with a Proposed Benchmark) [30.223130782579336]
我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。
LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。
以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
論文 参考訳(メタデータ) (2023-02-13T21:37:41Z) - Methodological Foundation of a Numerical Taxonomy of Urban Form [62.997667081978825]
本稿では, 生物系統学から得られた都市形態の数値分類法を提案する。
我々は同質の都市組織タイプを導出し、それら間の全体形態的類似性を決定することにより、都市形態の階層的分類を生成する。
フレーミングとプレゼンを行った後、プラハとアムステルダムの2都市でテストを行った。
論文 参考訳(メタデータ) (2021-04-30T12:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。