論文の概要: MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning
- arxiv url: http://arxiv.org/abs/2407.09523v1
- Date: Sun, 23 Jun 2024 09:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:28:38.438598
- Title: MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning
- Title(参考訳): MuseCL:マルチセマンティックコントラスト学習による都市社会経済指標の予測
- Authors: Xixian Yong, Xiao Zhou,
- Abstract要約: MuseCLは、都市部の詳細なプロファイリングと社会経済予測のためのフレームワークである。
ストリートビューとリモートセンシング画像のためのコントラスト的なサンプルペアを構築し,人間の移動性に類似点を生かした。
これらの領域に埋め込まれたPOIテキストから,事前学習したテキストエンコーダを用いて意味的な洞察を抽出する。
- 参考スコア(独自算出の注目度): 13.681538916025021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting socioeconomic indicators within urban regions is crucial for fostering inclusivity, resilience, and sustainability in cities and human settlements. While pioneering studies have attempted to leverage multi-modal data for socioeconomic prediction, jointly exploring their underlying semantics remains a significant challenge. To address the gap, this paper introduces a Multi-Semantic Contrastive Learning (MuseCL) framework for fine-grained urban region profiling and socioeconomic prediction. Within this framework, we initiate the process by constructing contrastive sample pairs for street view and remote sensing images, capitalizing on the similarities in human mobility and Point of Interest (POI) distribution to derive semantic features from the visual modality. Additionally, we extract semantic insights from POI texts embedded within these regions, employing a pre-trained text encoder. To merge the acquired visual and textual features, we devise an innovative cross-modality-based attentional fusion module, which leverages a contrastive mechanism for integration. Experimental results across multiple cities and indicators consistently highlight the superiority of MuseCL, demonstrating an average improvement of 10% in $R^2$ compared to various competitive baseline models. The code of this work is publicly available at https://github.com/XixianYong/MuseCL.
- Abstract(参考訳): 都市部における社会経済指標の予測は、都市や人の居住地における傾向、レジリエンス、持続可能性の向上に不可欠である。
先駆的な研究は、社会経済予測にマルチモーダルデータを活用しようと試みてきたが、その基盤となるセマンティクスを共同で探求することは大きな課題である。
このギャップに対処するために,都市域の詳細なプロファイリングと社会経済予測のためのマルチセマンティック・コントラスト学習(MuseCL)フレームワークを提案する。
この枠組みでは,街路ビューとリモートセンシング画像のコントラスト的なサンプルペアを構築し,人間のモビリティとPOI(Point of Interest)分布の類似性を活かし,視覚的モダリティから意味的特徴を導出することでプロセスを開始する。
さらに,これらの領域に埋め込まれたPOIテキストから,事前学習したテキストエンコーダを用いて意味的洞察を抽出する。
得られた視覚的特徴とテキスト的特徴をマージするため,我々は,統合のためのコントラスト機構を活用する,革新的な相互モダリティに基づく注意融合モジュールを考案した。
複数の都市における実験結果と指標は、MuseCLの優位性を一貫して強調し、様々な競争ベースラインモデルと比較して、R^2$の平均的な10%の改善を示した。
この作業のコードはhttps://github.com/XixianYong/MuseCLで公開されている。
関連論文リスト
- Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文 参考訳(メタデータ) (2024-06-13T14:45:35Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web [37.332601383723585]
本稿では,テキストモダリティの知識を都市画像のプロファイリングに取り入れた最初のフレームワークを紹介する。
オープンソースのImage-to-Text LLMにより,衛星画像毎の詳細なテキスト記述を生成する。
モデルは画像とテキストのペアに基づいて訓練され、都市視覚表現学習のための自然言語の監督をシームレスに統一する。
論文 参考訳(メタデータ) (2023-10-22T02:32:53Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Knowledge-infused Contrastive Learning for Urban Imagery-based
Socioeconomic Prediction [13.26632316765164]
衛星・ストリートビュー画像のようなウェブ上の都市画像は、社会経済予測の重要な情報源として現れてきた。
本稿では,都市イメージに基づく社会経済予測のための知識注入型コントラスト学習モデルを提案する。
提案手法は,衛星画像と路面画像の両方に適用可能である。
論文 参考訳(メタデータ) (2023-02-25T14:53:17Z) - Neural Embeddings of Urban Big Data Reveal Emergent Structures in Cities [7.148078723492643]
都市部の異質性を利用したニューラルネットワーク(GNN)を提案する。
アメリカ合衆国の16大都市圏において,何百万もの携帯電話利用者による大規模高解像度モビリティデータセットを用いて,都市部コンポーネント間の複雑な関係をエンコードしていることを示す。
異なる郡で訓練されたモデルによって生成された埋め込みは、他の郡における創発的空間構造の50%から60%を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-10-24T07:13:14Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Learning Neighborhood Representation from Multi-Modal Multi-Graph:
Image, Text, Mobility Graph and Beyond [20.014906526266795]
本稿では,マルチモーダルジオタグ入力をノードまたはエッジの特徴として統合する新しい手法を提案する。
具体的には、ストリートビュー画像とpoi特徴を用いて、近傍(ノード)を特徴付け、人間移動を用いて近隣(方向エッジ)間の関係を特徴付ける。
トレーニングした埋め込みは、ユニモーダルデータのみを地域入力として使用するものよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T07:44:05Z) - Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal
Urban Neighborhood Embedding [8.396746290518102]
Urban2Vecは、ストリートビューイメージと関心のポイントデータの両方を組み込んだ、教師なしマルチモーダルフレームワークである。
我々は,Urban2Vecがベースラインモデルよりも優れた性能を実現し,下流予測タスクにおける完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2020-01-29T21:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。