Fugu-MT 論文翻訳(概要): UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding

論文の概要: UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding

arxiv url: http://arxiv.org/abs/2506.23219v1
Date: Sun, 29 Jun 2025 13:04:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.778811
Title: UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
Title（参考訳）: UrbanLLaVA:空間推論と理解を伴う都市情報のためのマルチモーダル大言語モデル
Authors: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li,
Abstract要約: 我々は,マルチモーダルデータを同時に処理するマルチモーダルな大規模言語モデルである$textitUrbanLLaVA$を紹介した。ドメイン知識学習から空間推論の強化を分離する多段階学習フレームワークを提案する。 3つの都市での実験結果から、$textitUrbanLLaVA$は、シングルモーダルタスクと複雑なクロスモーダルタスクの両方において、オープンソースおよびプロプライエタリなMLLMより優れています。
参考スコア（独自算出の注目度）: 5.312363883238377
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Urban research involves a wide range of scenarios and tasks that require the understanding of multi-modal data. Current methods often focus on specific data types and lack a unified framework in urban field for processing them comprehensively. The recent success of multi-modal large language models (MLLMs) presents a promising opportunity to overcome this limitation. In this paper, we introduce $\textit{UrbanLLaVA}$, a multi-modal large language model designed to process these four types of data simultaneously and achieve strong performance across diverse urban tasks compared with general MLLMs. In $\textit{UrbanLLaVA}$, we first curate a diverse urban instruction dataset encompassing both single-modal and cross-modal urban data, spanning from location view to global view of urban environment. Additionally, we propose a multi-stage training framework that decouples spatial reasoning enhancement from domain knowledge learning, thereby improving the compatibility and downstream performance of $\textit{UrbanLLaVA}$ across diverse urban tasks. Finally, we also extend existing benchmark for urban research to assess the performance of MLLMs across a wide range of urban tasks. Experimental results from three cities demonstrate that $\textit{UrbanLLaVA}$ outperforms open-source and proprietary MLLMs in both single-modal tasks and complex cross-modal tasks and shows robust generalization abilities across cities. Source codes and data are openly accessible to the research community via https://github.com/tsinghua-fib-lab/UrbanLLaVA.
Abstract（参考訳）: 都市研究には、マルチモーダルデータの理解を必要とする幅広いシナリオとタスクが含まれる。現在の手法は、しばしば特定のデータ型に焦点を合わせ、それらを包括的に処理するための都市分野における統一されたフレームワークが欠如している。最近のMLLM(Multi-modal large language model)の成功は、この制限を克服する有望な機会である。本稿では、これらの4種類のデータを同時に処理し、一般のMLLMと比較して多様な都市タスクにおいて高い性能を実現するために設計されたマルチモーダルな大規模言語モデルである$\textit{UrbanLLaVA}$を紹介する。 $\textit{UrbanLLaVA}$で、我々はまず、単一モーダルとクロスモーダルの両方の都市データを含む多様な都市教育データセットを、位置ビューから都市環境のグローバルビューまで、キュレートする。さらに、領域知識学習から空間推論の強化を分離し、様々な都市タスクにおける$\textit{UrbanLLaVA}$の互換性とダウンストリーム性能を向上させる多段階学習フレームワークを提案する。最後に,都市部におけるMLLMの性能評価を行うため,既存の都市調査ベンチマークを拡張した。 3つの都市の実験結果から、$\textit{UrbanLLaVA}$は、シングルモーダルタスクと複雑なクロスモーダルタスクの両方において、オープンソースおよびプロプライエタリなMLLMよりも優れており、都市全体での堅牢な一般化能力を示している。ソースコードとデータは、https://github.com/tsinghua-fib-lab/UrbanLLaVAを通じて、研究コミュニティに公開公開されている。

関連論文リスト

LaViDa: A Large Diffusion Language Model for Multimodal Understanding [70.99233885354028]
LaViDaは離散拡散モデルに基づいて構築されたビジョンランゲージモデルのファミリーである。 DMは、高速な推論と制御可能な生成のための双方向コンテキストのための並列デコーディングを提供する。 LaViDaはマルチモーダルベンチマークでAR VLMと競合または優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-22T16:07:12Z)
UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models [18.051209616917042]
UrbanMind は多面的都市動態予測のための空間時空間 LLM フレームワークである。 UrbanMindのコアとなるMuffin-MAEは、特殊なマスキング戦略を備えた多面式フュージョンマスク自動エンコーダである。複数の都市にまたがる実世界の都市データセットの実験は、UrbanMindが一貫して最先端のベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-05-16T19:38:06Z)
Urban Computing in the Era of Large Language Models [41.50492781046065]
本稿では,大規模言語モデル(LLM)と都市コンピューティングの交わりについて検討する。我々は,LLMの進化とコア技術について,簡潔に概説する。我々は、交通、公共安全、環境モニタリングなど、主要都市領域にまたがる応用を調査する。
論文参考訳（メタデータ） (2025-04-02T05:12:13Z)
Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文参考訳（メタデータ） (2024-11-25T13:20:19Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。 UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。 21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文参考訳（メタデータ） (2024-08-30T13:13:35Z)
Urban-Focused Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing [19.139077084857487]
コントラストデータ共有アプローチを用いたマルチタスクオフライン強化学習であるMODAを紹介する。我々は,新しいモデルベースマルチタスクオフラインRLアルゴリズムを開発した。実世界のマルチタスク都市環境における実験により,MODAの有効性が検証された。
論文参考訳（メタデータ） (2024-06-20T07:24:24Z)
CityGPT: Empowering Urban Spatial Cognition of Large Language Models [7.40606412920065]
大規模言語モデルは、都市環境内の実際の地理空間的タスクに取り組むと、しばしば不足する。都市空間に対するLLMの理解を高め、関連する都市課題を解決する能力を向上させるためのフレームワークである textitCityGPT を提案する。提案手法の有効性を検証するため,LLMの性能評価のためのテキストベースの空間ベンチマークtextitCityEvalを開発した。
論文参考訳（メタデータ） (2024-06-20T02:32:16Z)
CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks [10.22654338686634]
大規模言語モデル (LLMs) と視覚言語モデル (VLMs) は、実際の有効性と信頼性を確保するために欠かせないものとなっている。都市研究のための体系的評価ベンチマークを構築する上での課題は、都市データの多様性にある。本稿では,対話型シミュレータによる評価プラットフォームである textitCityBench を設計する。
論文参考訳（メタデータ） (2024-06-20T02:25:07Z)
UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web [37.332601383723585]
本稿では,テキストモダリティの知識を都市画像のプロファイリングに取り入れた最初のフレームワークを紹介する。オープンソースのImage-to-Text LLMにより,衛星画像毎の詳細なテキスト記述を生成する。モデルは画像とテキストのペアに基づいて訓練され、都市視覚表現学習のための自然言語の監督をシームレスに統一する。
論文参考訳（メタデータ） (2023-10-22T02:32:53Z)
Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for Cross-City Semantic Segmentation using High-Resolution Domain Adaptation Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文参考訳（メタデータ） (2023-09-26T23:55:39Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。