論文の概要: UrbanGraphEmbeddings: Learning and Evaluating Spatially Grounded Multimodal Embeddings for Urban Science
- arxiv url: http://arxiv.org/abs/2602.08342v1
- Date: Mon, 09 Feb 2026 07:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.104196
- Title: UrbanGraphEmbeddings: Learning and Evaluating Spatially Grounded Multimodal Embeddings for Urban Science
- Title(参考訳): UrbanGraphEmbeddings: 都市科学のための空間的マルチモーダル埋め込みの学習と評価
- Authors: Jie Zhang, Xingtong Yu, Yuan Fang, Rudi Stouffs, Zdravko Trivic,
- Abstract要約: UGDataは、ストリートビュー画像を構造化空間グラフにアンカーする空間的グラウンドデータセットである。
命令誘導型コントラスト学習とグラフベースの空間符号化を組み合わせることで、画像、テキスト、空間構造を整列する2段階のトレーニング戦略であるUGEを提案する。
我々は、Qwen2-VL、Qwen2.5-VL、Phi-3-Vision、LLaVA1.6-Mistralを含む複数の最先端VLMバックボーン上でUGEを開発し、LoRAチューニングによる固定次元空間埋め込みを訓練する。
- 参考スコア(独自算出の注目度): 13.6941021074445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning transferable multimodal embeddings for urban environments is challenging because urban understanding is inherently spatial, yet existing datasets and benchmarks lack explicit alignment between street-view images and urban structure. We introduce UGData, a spatially grounded dataset that anchors street-view images to structured spatial graphs and provides graph-aligned supervision via spatial reasoning paths and spatial context captions, exposing distance, directionality, connectivity, and neighborhood context beyond image content. Building on UGData, we propose UGE, a two-stage training strategy that progressively and stably aligns images, text, and spatial structures by combining instruction-guided contrastive learning with graph-based spatial encoding. We finally introduce UGBench, a comprehensive benchmark to evaluate how spatially grounded embeddings support diverse urban understanding tasks -- including geolocation ranking, image retrieval, urban perception, and spatial grounding. We develop UGE on multiple state-of-the-art VLM backbones, including Qwen2-VL, Qwen2.5-VL, Phi-3-Vision, and LLaVA1.6-Mistral, and train fixed-dimensional spatial embeddings with LoRA tuning. UGE built upon Qwen2.5-VL-7B backbone achieves up to 44% improvement in image retrieval and 30% in geolocation ranking on training cities, and over 30% and 22% gains respectively on held-out cities, demonstrating the effectiveness of explicit spatial grounding for spatially intensive urban tasks.
- Abstract(参考訳): 都市環境に対する移動可能なマルチモーダル埋め込みの学習は、都市理解が本質的に空間的であるため困難であるが、既存のデータセットやベンチマークでは、ストリートビュー画像と都市構造との明確な整合性が欠如している。
UGDataは、ストリートビュー画像を構造化された空間グラフに固定し、空間的推論経路や空間的文脈キャプションを通じてグラフに整合した監視を行い、距離、方向、接続性、画像コンテンツ以外の近傍コンテキストを露呈する空間的基盤付きデータセットである。
UGDataをベースとした2段階のトレーニング戦略であるUGEを提案し,命令誘導型コントラスト学習とグラフベースの空間符号化を組み合わせることで,画像,テキスト,空間構造を段階的に安定的に整列させる。
UGBenchは、位置情報のランク付け、画像検索、都市認識、空間的接地など、さまざまな都市理解タスクを、空間的接地がどのようにサポートするかを評価するための総合的なベンチマークである。
我々は、Qwen2-VL、Qwen2.5-VL、Phi-3-Vision、LLaVA1.6-Mistralを含む複数の最先端VLMバックボーン上でUGEを開発し、LoRAチューニングによる固定次元空間埋め込みを訓練する。
Qwen2.5-VL-7Bのバックボーン上に構築されたUGEは、トレーニング都市における画像検索が最大44%改善し、位置情報ランキングが30%向上し、それぞれが保持都市で30%と22%向上した。
関連論文リスト
- Neighbor-aware informal settlement mapping with graph convolutional networks [1.226598527858578]
本稿では,局所的な地理的コンテキストを分類プロセスに組み込んだグラフベースのフレームワークを提案する。
リオデジャネイロのケーススタディでは,空間的クロスバリデーションを用いて実験を行った。
本手法は,Kappa係数を個々の細胞分類よりも17ポイント向上する。
論文 参考訳(メタデータ) (2025-09-30T12:25:25Z) - Unsupervised Urban Land Use Mapping with Street View Contrastive Clustering and a Geographical Prior [16.334202302817783]
本研究は、地理的事前に組み込まれたストリートビュー画像に対する教師なしコントラストクラスタリングモデルを提案する。
本研究では,2つの都市の地理タグ付きストリートビュー画像データセットから土地利用地図を作成できることを実験的に示す。
論文 参考訳(メタデータ) (2025-04-24T13:41:27Z) - Multimodal Contrastive Learning of Urban Space Representations from POI Data [2.695321027513952]
CaLLiPer (Contrastive Language-Location Pre-training) は連続的な都市空間をベクトル表現に埋め込む表現学習モデルである。
ロンドンにおける都市空間表現の学習に適用し,CaLLiPerの有効性を検証する。
論文 参考訳(メタデータ) (2024-11-09T16:24:07Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point
Clouds [52.624157840253204]
センサットウルバン(SensatUrban)は、イギリスの3都市から収集された7.6km2の30億点近くからなる、都市規模のUAV測光点クラウドデータセットである。
データセットの各ポイントは、粒度の細かいセマンティックアノテーションでラベル付けされ、その結果、既存の最大のフォトグラムポイントクラウドデータセットの3倍の大きさのデータセットが生成される。
論文 参考訳(メタデータ) (2022-01-12T14:48:11Z) - FloorLevel-Net: Recognizing Floor-Level Lines with
Height-Attention-Guided Multi-task Learning [49.30194762653723]
本研究は, 教師付き深層学習手法を用いて, ストリートビュー画像中のフロアレベル線の位置を求める問題に対処する。
まず、新しいデータセットをコンパイルし、トレーニングサンプルを合成する新しいデータ拡張スキームを開発する。
次にFloorLevel-Netを設計する。FloorLevel-Netは、ファサードと暗黙のフロアレベルラインの明示的な特徴を関連付けるマルチタスク学習ネットワークである。
論文 参考訳(メタデータ) (2021-07-06T08:17:59Z) - Learning Large-scale Location Embedding From Human Mobility Trajectories
with Graphs [0.0]
本研究では,大規模LBSデータを用いて位置のベクトル表現を学習する。
このモデルは、人間のモビリティと空間情報にコンテキスト情報を組み込む。
GCN-L2Vは、他の場所埋め込み法や下流のGeo-Awareアプリケーションと相補的に適用することができる。
論文 参考訳(メタデータ) (2021-02-23T09:11:33Z) - Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset,
Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。
私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。
我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文 参考訳(メタデータ) (2020-09-07T14:47:07Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。