論文の概要: CityBench: Evaluating the Capabilities of Large Language Model as World Model
- arxiv url: http://arxiv.org/abs/2406.13945v1
- Date: Thu, 20 Jun 2024 02:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:36:50.146633
- Title: CityBench: Evaluating the Capabilities of Large Language Model as World Model
- Title(参考訳): CityBench: 世界モデルとしての大規模言語モデルの能力を評価する
- Authors: Jie Feng, Jun Zhang, Junbo Yan, Xin Zhang, Tianjian Ouyang, Tianhui Liu, Yuwei Du, Siqi Guo, Yong Li,
- Abstract要約: 強力な一般化能力を持つ大規模言語モデル(LLM)は、多くの領域で広く使われている。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを提案する。
本研究では,都市域におけるLLMの都市規模世界モデルとしての能力を評価するために,認識理解と意思決定の2つのカテゴリに7つのタスクを設計する。
- 参考スコア(独自算出の注目度): 10.22654338686634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with powerful generalization ability has been widely used in many domains. A systematic and reliable evaluation of LLMs is a crucial step in their development and applications, especially for specific professional fields. In the urban domain, there have been some early explorations about the usability of LLMs, but a systematic and scalable evaluation benchmark is still lacking. The challenge in constructing a systematic evaluation benchmark for the urban domain lies in the diversity of data and scenarios, as well as the complex and dynamic nature of cities. In this paper, we propose CityBench, an interactive simulator based evaluation platform, as the first systematic evaluation benchmark for the capability of LLMs for urban domain. First, we build CitySim to integrate the multi-source data and simulate fine-grained urban dynamics. Based on CitySim, we design 7 tasks in 2 categories of perception-understanding and decision-making group to evaluate the capability of LLMs as city-scale world model for urban domain. Due to the flexibility and ease-of-use of CitySim, our evaluation platform CityBench can be easily extended to any city in the world. We evaluate 13 well-known LLMs including open source LLMs and commercial LLMs in 13 cities around the world. Extensive experiments demonstrate the scalability and effectiveness of proposed CityBench and shed lights for the future development of LLMs in urban domain. The dataset, benchmark and source codes are openly accessible to the research community via https://github.com/tsinghua-fib-lab/CityBench
- Abstract(参考訳): 強力な一般化能力を持つ大規模言語モデル(LLM)は、多くの領域で広く使われている。
LLMの体系的かつ信頼性の高い評価は、特に専門分野の開発と応用において重要なステップである。
都市領域では、LSMのユーザビリティに関する初期の調査がいくつか行われているが、体系的でスケーラブルな評価ベンチマークはいまだに不足している。
都市領域の体系的評価ベンチマークを構築する上での課題は、データの多様性とシナリオ、および都市の複雑で動的な性質である。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを提案する。
まず、マルチソースデータを統合し、きめ細かい都市動態をシミュレートするためにCitySimを構築します。
CitySimをベースとして,都市域におけるLLMの都市規模世界モデルとしての能力を評価するために,認識理解と意思決定の2つのカテゴリに7つのタスクを設計する。
CitySimの柔軟性と使いやすさのため、私たちの評価プラットフォームCityBenchは世界中のどの都市にも容易に拡張できます。
世界中の13都市において,オープンソースのLLMや商用LLMを含む13の有名なLLMを評価した。
都市域におけるLCMの今後の発展に向けて,提案するCityBenchとShed Lightのスケーラビリティと有効性を示す大規模な実験を行った。
データセット、ベンチマーク、ソースコードは、https://github.com/tsinghua-fib-lab/CityBenchを通じて、研究コミュニティに公開公開されている。
関連論文リスト
- CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - CityGPT: Empowering Urban Spatial Cognition of Large Language Models [7.40606412920065]
強力な言語生成と推論機能を備えた大規模言語モデル(LLM)は、すでに多くのドメインで成功している。
しかし、物理世界のコーパスが不足し、訓練中に知識が不足しているため、都市空間における多くの現実的なタスクを解決できないのが普通である。
都市空間の理解と関連する都市課題の解決におけるLCMの能力向上のための体系的枠組みであるCityGPTを提案する。
論文 参考訳(メタデータ) (2024-06-20T02:32:16Z) - Identifying every building's function in large-scale urban areas with multi-modality remote-sensing data [5.18540804614798]
本研究は,大規模都市部における建物機能同定のための半教師付き枠組みを提案する。
光画像、建築高さ、夜間光データを収集し、建物の形態特性を記述する。
結果は、政府による2万の検証ポイントと統計調査によって評価される。
論文 参考訳(メタデータ) (2024-05-08T15:32:20Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Chatmap : Large Language Model Interaction with Cartographic Data [0.0]
OpenStreetMap(OSM)は、都市部と農村部の詳細な地理データを提供する、最も野心的なオープンソースグローバルイニシアチブである。
本研究では,比較的小規模(1Bパラメータ)の大規模言語モデル(LLM)を,より有能な教師モデルによってキュレートされた比較的小さな人工データセットを用いて微調整するプロセスの概念と詳細を実証する。
この研究は、このような生成的人工知能(AI)適応のための最初のガイドラインを提供し、この文脈で有用な新興能力の早期の兆候を示すことを目的としている。
論文 参考訳(メタデータ) (2023-09-28T15:32:36Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents [103.28404907655542]
大規模言語モデル(LLM)は、自律エージェント(LAA)の新たな探索に繋がった。
本稿では,エージェントアーキテクチャとLLMバックボーンの両方の観点から,LAAの包括的な比較を行う。
我々は、複数のLAAを編成する新しい戦略を提案し、各LAAは、複数のエージェント間の通信を管理する制御器であるテキストティティ(textiti.e. BOLAA)に焦点をあてる。
論文 参考訳(メタデータ) (2023-08-11T06:37:54Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - On the Planning Abilities of Large Language Models (A Critical
Investigation with a Proposed Benchmark) [30.223130782579336]
我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。
LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。
以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
論文 参考訳(メタデータ) (2023-02-13T21:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。