論文の概要: UrbanFusion: Stochastic Multimodal Fusion for Contrastive Learning of Robust Spatial Representations
- arxiv url: http://arxiv.org/abs/2510.13774v1
- Date: Wed, 15 Oct 2025 17:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.789834
- Title: UrbanFusion: Stochastic Multimodal Fusion for Contrastive Learning of Robust Spatial Representations
- Title(参考訳): 都市フュージョン:ロバスト空間表現のコントラスト学習のための確率的マルチモーダルフュージョン
- Authors: Dominik J. Mühlematter, Lin Che, Ye Hong, Martin Raubal, Nina Wiedemann,
- Abstract要約: UrbanFusionはMultimodal Fusion(SMF)を特徴とするGeoFM(GeoFM)である
このフレームワークでは、ストリートビュー画像、リモートセンシングデータ、カートマップ、関心点(POI)データなど、さまざまなタイプの入力を処理するために、空間固有のエンコーダを使用している。
UrbanFusionの強力な一般化と予測性能は、最先端のGeoAIモデルと比較される。
- 参考スコア(独自算出の注目度): 2.88543300889763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting urban phenomena such as housing prices and public health indicators requires the effective integration of various geospatial data. Current methods primarily utilize task-specific models, while recent foundation models for spatial representations often support only limited modalities and lack multimodal fusion capabilities. To overcome these challenges, we present UrbanFusion, a Geo-Foundation Model (GeoFM) that features Stochastic Multimodal Fusion (SMF). The framework employs modality-specific encoders to process different types of inputs, including street view imagery, remote sensing data, cartographic maps, and points of interest (POIs) data. These multimodal inputs are integrated via a Transformer-based fusion module that learns unified representations. An extensive evaluation across 41 tasks in 56 cities worldwide demonstrates UrbanFusion's strong generalization and predictive performance compared to state-of-the-art GeoAI models. Specifically, it 1) outperforms prior foundation models on location-encoding, 2) allows multimodal input during inference, and 3) generalizes well to regions unseen during training. UrbanFusion can flexibly utilize any subset of available modalities for a given location during both pretraining and inference, enabling broad applicability across diverse data availability scenarios. All source code is available at https://github.com/DominikM198/UrbanFusion.
- Abstract(参考訳): 住宅価格や公衆衛生指標などの都市現象の予測には、地理空間データの効果的な統合が必要である。
現在の手法は主にタスク固有モデルを利用するが、最近の空間表現の基礎モデルは限られたモダリティしかサポートせず、マルチモーダル融合機能を欠いていることが多い。
これらの課題を克服するために,Stochastic Multimodal Fusion(SMF)を特徴とするGeoFM(GeoFM)のアーバンフュージョンを提案する。
このフレームワークでは、ストリートビューイメージ、リモートセンシングデータ、地図地図、関心点(POI)データなど、さまざまなタイプの入力を処理するために、モダリティ固有のエンコーダを使用している。
これらのマルチモーダル入力は、統一表現を学習するTransformerベースの融合モジュールを介して統合される。
世界56都市の41のタスクにわたる広範な評価は、最先端のGeoAIモデルと比較して、UrbanFusionの強力な一般化と予測性能を示している。
具体的には
1) 位置符号化における基礎モデルよりも優れる。
2)推論中にマルチモーダル入力を許可し、
3)訓練中に見えない領域に一般化する。
UrbanFusionは、事前トレーニングと推論の両方の間、所定のロケーションで利用可能なモダリティのサブセットを柔軟に利用できるため、さまざまなデータ可用性シナリオにまたがって広範な適用が可能になる。
すべてのソースコードはhttps://github.com/DominikM198/UrbanFusionで入手できる。
関連論文リスト
- Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models [54.196385799229006]
この調査は、従来のアプローチから基礎モデルへの進歩に関する、初めての包括的なレビューを提供する。
1)マルチモーダルドメイン適応,(2)マルチモーダルテスト時間適応,(3)マルチモーダルドメイン一般化,(4)マルチモーダルファンデーションモデルの助けを借りたドメイン適応と一般化,(5)マルチモーダルファンデーションモデルの適応。
論文 参考訳(メタデータ) (2025-01-30T18:59:36Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - City Foundation Models for Learning General Purpose Representations from OpenStreetMap [16.09047066527081]
本稿では,都市のような選択された地理的関心領域における基礎モデルをトレーニングするためのフレームワークであるCityFMを紹介する。
CityFMはOpenStreetMapからのオープンデータにのみ依存し、異なるタイプのエンティティ、空間、視覚、およびテキスト情報のマルチモーダル表現を生成する。
すべての実験において、CityFMはベースラインに匹敵する、あるいは同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-01T05:55:30Z) - Attentive Graph Enhanced Region Representation Learning [7.4106801792345705]
都市部を正確にかつ包括的に表現することは,様々な都市計画・分析業務に不可欠である。
本研究では,複数のグラフから包括的依存関係を抽出し,都市域のリッチな意味表現を学習することを目的としたAttentive Graph Enhanced Region Representation Learning (ATGRL)モデルを提案する。
論文 参考訳(メタデータ) (2023-07-06T16:38:43Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。