論文の概要: UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
- arxiv url: http://arxiv.org/abs/2506.23219v1
- Date: Sun, 29 Jun 2025 13:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.778811
- Title: UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
- Title(参考訳): UrbanLLaVA:空間推論と理解を伴う都市情報のためのマルチモーダル大言語モデル
- Authors: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li,
- Abstract要約: 我々は,マルチモーダルデータを同時に処理するマルチモーダルな大規模言語モデルである$textitUrbanLLaVA$を紹介した。
ドメイン知識学習から空間推論の強化を分離する多段階学習フレームワークを提案する。
3つの都市での実験結果から、$textitUrbanLLaVA$は、シングルモーダルタスクと複雑なクロスモーダルタスクの両方において、オープンソースおよびプロプライエタリなMLLMより優れています。
- 参考スコア(独自算出の注目度): 5.312363883238377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Urban research involves a wide range of scenarios and tasks that require the understanding of multi-modal data. Current methods often focus on specific data types and lack a unified framework in urban field for processing them comprehensively. The recent success of multi-modal large language models (MLLMs) presents a promising opportunity to overcome this limitation. In this paper, we introduce $\textit{UrbanLLaVA}$, a multi-modal large language model designed to process these four types of data simultaneously and achieve strong performance across diverse urban tasks compared with general MLLMs. In $\textit{UrbanLLaVA}$, we first curate a diverse urban instruction dataset encompassing both single-modal and cross-modal urban data, spanning from location view to global view of urban environment. Additionally, we propose a multi-stage training framework that decouples spatial reasoning enhancement from domain knowledge learning, thereby improving the compatibility and downstream performance of $\textit{UrbanLLaVA}$ across diverse urban tasks. Finally, we also extend existing benchmark for urban research to assess the performance of MLLMs across a wide range of urban tasks. Experimental results from three cities demonstrate that $\textit{UrbanLLaVA}$ outperforms open-source and proprietary MLLMs in both single-modal tasks and complex cross-modal tasks and shows robust generalization abilities across cities. Source codes and data are openly accessible to the research community via https://github.com/tsinghua-fib-lab/UrbanLLaVA.
- Abstract(参考訳): 都市研究には、マルチモーダルデータの理解を必要とする幅広いシナリオとタスクが含まれる。
現在の手法は、しばしば特定のデータ型に焦点を合わせ、それらを包括的に処理するための都市分野における統一されたフレームワークが欠如している。
最近のMLLM(Multi-modal large language model)の成功は、この制限を克服する有望な機会である。
本稿では、これらの4種類のデータを同時に処理し、一般のMLLMと比較して多様な都市タスクにおいて高い性能を実現するために設計されたマルチモーダルな大規模言語モデルである$\textit{UrbanLLaVA}$を紹介する。
$\textit{UrbanLLaVA}$で、我々はまず、単一モーダルとクロスモーダルの両方の都市データを含む多様な都市教育データセットを、位置ビューから都市環境のグローバルビューまで、キュレートする。
さらに、領域知識学習から空間推論の強化を分離し、様々な都市タスクにおける$\textit{UrbanLLaVA}$の互換性とダウンストリーム性能を向上させる多段階学習フレームワークを提案する。
最後に,都市部におけるMLLMの性能評価を行うため,既存の都市調査ベンチマークを拡張した。
3つの都市の実験結果から、$\textit{UrbanLLaVA}$は、シングルモーダルタスクと複雑なクロスモーダルタスクの両方において、オープンソースおよびプロプライエタリなMLLMよりも優れており、都市全体での堅牢な一般化能力を示している。
ソースコードとデータは、https://github.com/tsinghua-fib-lab/UrbanLLaVAを通じて、研究コミュニティに公開公開されている。
関連論文リスト
- Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - CityGPT: Empowering Urban Spatial Cognition of Large Language Models [7.40606412920065]
大規模言語モデルは、都市環境内の実際の地理空間的タスクに取り組むと、しばしば不足する。
都市空間に対するLLMの理解を高め、関連する都市課題を解決する能力を向上させるためのフレームワークである textitCityGPT を提案する。
提案手法の有効性を検証するため,LLMの性能評価のためのテキストベースの空間ベンチマークtextitCityEvalを開発した。
論文 参考訳(メタデータ) (2024-06-20T02:32:16Z) - CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks [10.22654338686634]
大規模言語モデル (LLMs) と視覚言語モデル (VLMs) は、実際の有効性と信頼性を確保するために欠かせないものとなっている。
都市研究のための体系的評価ベンチマークを構築する上での課題は、都市データの多様性にある。
本稿では,対話型シミュレータによる評価プラットフォームである textitCityBench を設計する。
論文 参考訳(メタデータ) (2024-06-20T02:25:07Z) - UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web [37.332601383723585]
本稿では,テキストモダリティの知識を都市画像のプロファイリングに取り入れた最初のフレームワークを紹介する。
オープンソースのImage-to-Text LLMにより,衛星画像毎の詳細なテキスト記述を生成する。
モデルは画像とテキストのペアに基づいて訓練され、都市視覚表現学習のための自然言語の監督をシームレスに統一する。
論文 参考訳(メタデータ) (2023-10-22T02:32:53Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。