Fugu-MT 論文翻訳(概要): MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning

論文の概要: MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning

arxiv url: http://arxiv.org/abs/2407.09523v1
Date: Sun, 23 Jun 2024 09:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 13:28:38.438598
Title: MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning
Title（参考訳）: MuseCL:マルチセマンティックコントラスト学習による都市社会経済指標の予測
Authors: Xixian Yong, Xiao Zhou,
Abstract要約: MuseCLは、都市部の詳細なプロファイリングと社会経済予測のためのフレームワークである。ストリートビューとリモートセンシング画像のためのコントラスト的なサンプルペアを構築し,人間の移動性に類似点を生かした。これらの領域に埋め込まれたPOIテキストから,事前学習したテキストエンコーダを用いて意味的な洞察を抽出する。
参考スコア（独自算出の注目度）: 13.681538916025021
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Predicting socioeconomic indicators within urban regions is crucial for fostering inclusivity, resilience, and sustainability in cities and human settlements. While pioneering studies have attempted to leverage multi-modal data for socioeconomic prediction, jointly exploring their underlying semantics remains a significant challenge. To address the gap, this paper introduces a Multi-Semantic Contrastive Learning (MuseCL) framework for fine-grained urban region profiling and socioeconomic prediction. Within this framework, we initiate the process by constructing contrastive sample pairs for street view and remote sensing images, capitalizing on the similarities in human mobility and Point of Interest (POI) distribution to derive semantic features from the visual modality. Additionally, we extract semantic insights from POI texts embedded within these regions, employing a pre-trained text encoder. To merge the acquired visual and textual features, we devise an innovative cross-modality-based attentional fusion module, which leverages a contrastive mechanism for integration. Experimental results across multiple cities and indicators consistently highlight the superiority of MuseCL, demonstrating an average improvement of 10% in $R^2$ compared to various competitive baseline models. The code of this work is publicly available at https://github.com/XixianYong/MuseCL.
Abstract（参考訳）: 都市部における社会経済指標の予測は、都市や人の居住地における傾向、レジリエンス、持続可能性の向上に不可欠である。先駆的な研究は、社会経済予測にマルチモーダルデータを活用しようと試みてきたが、その基盤となるセマンティクスを共同で探求することは大きな課題である。このギャップに対処するために,都市域の詳細なプロファイリングと社会経済予測のためのマルチセマンティック・コントラスト学習(MuseCL)フレームワークを提案する。この枠組みでは,街路ビューとリモートセンシング画像のコントラスト的なサンプルペアを構築し,人間のモビリティとPOI(Point of Interest)分布の類似性を活かし,視覚的モダリティから意味的特徴を導出することでプロセスを開始する。さらに,これらの領域に埋め込まれたPOIテキストから,事前学習したテキストエンコーダを用いて意味的洞察を抽出する。得られた視覚的特徴とテキスト的特徴をマージするため,我々は,統合のためのコントラスト機構を活用する,革新的な相互モダリティに基づく注意融合モジュールを考案した。複数の都市における実験結果と指標は、MuseCLの優位性を一貫して強調し、様々な競争ベースラインモデルと比較して、R^2$の平均的な10%の改善を示した。この作業のコードはhttps://github.com/XixianYong/MuseCLで公開されている。

関連論文リスト

Invisible Walls in Cities: Leveraging Large Language Models to Predict Urban Segregation Experience with Social Media Content [21.34394159491078]
本稿では,大規模言語モデルを用いてオンラインレビューマイニングを自動化し,セグレゲーション予測を提案する。我々は,文化共鳴や魅力などの分離経験を示す重要な次元を捉えたコードブックを作成した。我々のフレームワークは予測精度を大幅に改善し、R2は22.79%、MSEは9.33%低下した。
論文参考訳（メタデータ） (2025-02-17T09:52:17Z)
SCALE: Towards Collaborative Content Analysis in Social Science with Large Language Model Agents and Human Intervention [50.07342730395946]
我々は、効果的に機能する新しいマルチエージェントフレームワークを導入する。 Imulates $underlinetextbfC$ontent $underlinetextbfA$nalysis via。 underlinetextbfL$arge language model (LLM) agunderlinetextbfE$nts。テキストコーディング、協調的な議論、動的コードブックの進化など、コンテンツ分析の重要なフェーズを模倣します。
論文参考訳（メタデータ） (2025-02-16T00:19:07Z)
Multimodal Contrastive Learning of Urban Space Representations from POI Data [2.695321027513952]
CaLLiPer (Contrastive Language-Location Pre-training) は連続的な都市空間をベクトル表現に埋め込む表現学習モデルである。ロンドンにおける都市空間表現の学習に適用し,CaLLiPerの有効性を検証する。
論文参考訳（メタデータ） (2024-11-09T16:24:07Z)
Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。 FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文参考訳（メタデータ） (2024-06-13T14:45:35Z)
Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-05-24T16:26:56Z)
UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction [26.693692853787756]
都市社会経済指標の予測は、多様な都市景観における持続可能な開発に関連する様々な指標を推測することを目的としている。事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
論文参考訳（メタデータ） (2024-03-25T14:57:18Z)
Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for Cross-City Semantic Segmentation using High-Resolution Domain Adaptation Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文参考訳（メタデータ） (2023-09-26T23:55:39Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Multi-source Semantic Graph-based Multimodal Sarcasm Explanation Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。 TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。 TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文参考訳（メタデータ） (2023-06-29T03:26:10Z)
Knowledge-infused Contrastive Learning for Urban Imagery-based Socioeconomic Prediction [13.26632316765164]
衛星・ストリートビュー画像のようなウェブ上の都市画像は、社会経済予測の重要な情報源として現れてきた。本稿では,都市イメージに基づく社会経済予測のための知識注入型コントラスト学習モデルを提案する。提案手法は,衛星画像と路面画像の両方に適用可能である。
論文参考訳（メタデータ） (2023-02-25T14:53:17Z)
Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery [19.93324644519412]
土地被覆の特徴の特定における都市と農村の格差のリスクを考察する。本稿では,畳み込みニューラルネットワークモデルの多レベル潜在空間を非バイアス化する手法として,コントラッシブラーニングを用いた高密度表現(FairDCL)を提案する。得られた画像表現は、下流の都市と農村の予測格差を軽減し、現実の衛星画像の最先端のベースラインを上回ります。
論文参考訳（メタデータ） (2022-11-16T04:59:46Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Learning Neighborhood Representation from Multi-Modal Multi-Graph: Image, Text, Mobility Graph and Beyond [20.014906526266795]
本稿では,マルチモーダルジオタグ入力をノードまたはエッジの特徴として統合する新しい手法を提案する。具体的には、ストリートビュー画像とpoi特徴を用いて、近傍(ノード)を特徴付け、人間移動を用いて近隣(方向エッジ)間の関係を特徴付ける。トレーニングした埋め込みは、ユニモーダルデータのみを地域入力として使用するものよりも優れています。
論文参考訳（メタデータ） (2021-05-06T07:44:05Z)
Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal Urban Neighborhood Embedding [8.396746290518102]
Urban2Vecは、ストリートビューイメージと関心のポイントデータの両方を組み込んだ、教師なしマルチモーダルフレームワークである。我々は,Urban2Vecがベースラインモデルよりも優れた性能を実現し,下流予測タスクにおける完全教師付き手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2020-01-29T21:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。