論文の概要: CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing
- arxiv url: http://arxiv.org/abs/2506.00530v1
- Date: Sat, 31 May 2025 12:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.180127
- Title: CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing
- Title(参考訳): CityLens: 都市社会経済センシングのための大規模言語ビジョンモデルのベンチマーク
- Authors: Tianhui Liu, Jie Feng, Hetian Pang, Xin Zhang, Tianjian Ouyang, Zhiyuan Zhang, Yong Li,
- Abstract要約: CityLensは、衛星やストリートビューの画像から社会経済指標を予測するために、大きな言語ビジョンモデル(LLVM)の能力を評価するために設計されたベンチマークである。
経済、教育、犯罪、輸送、健康、環境の6つの主要な領域にまたがる、合計17のグローバルな分散都市をカバーするマルチモーダルデータセットを構築した。
その結果,LLVMは有望な知覚・推論能力を示すが,都市社会経済指標の予測には限界があることが明らかとなった。
- 参考スコア(独自算出の注目度): 18.67492140450614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding urban socioeconomic conditions through visual data is a challenging yet essential task for sustainable urban development and policy planning. In this work, we introduce $\textbf{CityLens}$, a comprehensive benchmark designed to evaluate the capabilities of large language-vision models (LLVMs) in predicting socioeconomic indicators from satellite and street view imagery. We construct a multi-modal dataset covering a total of 17 globally distributed cities, spanning 6 key domains: economy, education, crime, transport, health, and environment, reflecting the multifaceted nature of urban life. Based on this dataset, we define 11 prediction tasks and utilize three evaluation paradigms: Direct Metric Prediction, Normalized Metric Estimation, and Feature-Based Regression. We benchmark 17 state-of-the-art LLVMs across these tasks. Our results reveal that while LLVMs demonstrate promising perceptual and reasoning capabilities, they still exhibit limitations in predicting urban socioeconomic indicators. CityLens provides a unified framework for diagnosing these limitations and guiding future efforts in using LLVMs to understand and predict urban socioeconomic patterns. Our codes and datasets are open-sourced via https://github.com/tsinghua-fib-lab/CityLens.
- Abstract(参考訳): 視覚データによる都市社会経済状況の理解は、持続可能な都市開発と政策計画にとって難しいが不可欠な課題である。
本研究では、衛星画像とストリートビュー画像から社会経済指標を予測するために、大規模言語ビジョンモデル(LLVM)の能力を評価するために設計された包括的なベンチマークである$\textbf{CityLens}$を紹介する。
都市生活の多面的な性質を反映した、経済、教育、犯罪、輸送、健康、環境の6つの主要な領域にまたがる、グローバルな合計17の都市をカバーするマルチモーダルデータセットを構築した。
このデータセットに基づいて、11の予測タスクを定義し、ダイレクトメトリック予測、正規化メトリック推定、特徴ベース回帰の3つの評価パラダイムを利用する。
これらのタスクで17の最先端のLLVMをベンチマークします。
その結果,LLVMは有望な知覚・推論能力を示すが,都市社会経済指標の予測には限界があることが明らかとなった。
CityLensはこれらの制限を診断するための統一的なフレームワークを提供し、LLVMを使用して都市社会経済パターンを理解し予測する今後の取り組みを導く。
私たちのコードとデータセットはhttps://github.com/tsinghua-fib-lab/CityLens.comで公開されています。
関連論文リスト
- StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model [12.789465279993864]
地理空間予測は災害管理、都市計画、公衆衛生など様々な分野において重要である。
提案するStreetViewLLMは,大規模言語モデルと連鎖推論とマルチモーダルデータソースを統合した新しいフレームワークである。
このモデルは、香港、東京、シンガポール、ロサンゼルス、ニューヨーク、ロンドン、パリを含む7つの世界都市に適用されている。
論文 参考訳(メタデータ) (2024-11-19T05:15:19Z) - Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.55649666025926]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。
私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。
ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文 参考訳(メタデータ) (2024-09-22T00:30:11Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning [13.681538916025021]
MuseCLは、都市部の詳細なプロファイリングと社会経済予測のためのフレームワークである。
ストリートビューとリモートセンシング画像のためのコントラスト的なサンプルペアを構築し,人間の移動性に類似点を生かした。
これらの領域に埋め込まれたPOIテキストから,事前学習したテキストエンコーダを用いて意味的な洞察を抽出する。
論文 参考訳(メタデータ) (2024-06-23T09:49:41Z) - CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks [10.22654338686634]
大規模言語モデル (LLMs) と視覚言語モデル (VLMs) は、実際の有効性と信頼性を確保するために欠かせないものとなっている。
都市研究のための体系的評価ベンチマークを構築する上での課題は、都市データの多様性にある。
本稿では,対話型シミュレータによる評価プラットフォームである textitCityBench を設計する。
論文 参考訳(メタデータ) (2024-06-20T02:25:07Z) - UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction [26.693692853787756]
都市社会経済指標の予測は、多様な都市景観における持続可能な開発に関連する様々な指標を推測することを目的としている。
事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
論文 参考訳(メタデータ) (2024-03-25T14:57:18Z) - Unified Data Management and Comprehensive Performance Evaluation for
Urban Spatial-Temporal Prediction [Experiment, Analysis & Benchmark] [78.05103666987655]
この研究は、多様な都市空間時間データセットにアクセスし活用する際の課題に対処する。
都市空間・時空間のビッグデータ用に設計された統合ストレージフォーマットであるアトミックファイルを導入し,40種類の多様なデータセットでその有効性を検証する。
多様なモデルとデータセットを使用して広範な実験を行い、パフォーマンスリーダーボードを確立し、有望な研究方向性を特定する。
論文 参考訳(メタデータ) (2023-08-24T16:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。