論文の概要: Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal
Urban Neighborhood Embedding
- arxiv url: http://arxiv.org/abs/2001.11101v1
- Date: Wed, 29 Jan 2020 21:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 20:34:46.630139
- Title: Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal
Urban Neighborhood Embedding
- Title(参考訳): Urban2Vec:マルチモーダルな都市近傍埋め込みのための街並み画像とPOI
- Authors: Zhecheng Wang, Haoyuan Li, Ram Rajagopal
- Abstract要約: Urban2Vecは、ストリートビューイメージと関心のポイントデータの両方を組み込んだ、教師なしマルチモーダルフレームワークである。
我々は,Urban2Vecがベースラインモデルよりも優れた性能を実現し,下流予測タスクにおける完全教師付き手法に匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 8.396746290518102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding intrinsic patterns and predicting spatiotemporal
characteristics of cities require a comprehensive representation of urban
neighborhoods. Existing works relied on either inter- or intra-region
connectivities to generate neighborhood representations but failed to fully
utilize the informative yet heterogeneous data within neighborhoods. In this
work, we propose Urban2Vec, an unsupervised multi-modal framework which
incorporates both street view imagery and point-of-interest (POI) data to learn
neighborhood embeddings. Specifically, we use a convolutional neural network to
extract visual features from street view images while preserving geospatial
similarity. Furthermore, we model each POI as a bag-of-words containing its
category, rating, and review information. Analog to document embedding in
natural language processing, we establish the semantic similarity between
neighborhood ("document") and the words from its surrounding POIs in the vector
space. By jointly encoding visual, textual, and geospatial information into the
neighborhood representation, Urban2Vec can achieve performances better than
baseline models and comparable to fully-supervised methods in downstream
prediction tasks. Extensive experiments on three U.S. metropolitan areas also
demonstrate the model interpretability, generalization capability, and its
value in neighborhood similarity analysis.
- Abstract(参考訳): 都市の固有パターンの理解と時空間特性の予測には、都市域の包括的表現が必要である。
既存の作業は、地域間または地域内接続に頼って地区表現を生成するが、地域内の情報的かつ異質なデータを完全に活用できなかった。
本研究では,街路ビュー画像とPOI(point-of-interest)データの両方を組み込んだ非教師なしマルチモーダルフレームワークであるUrban2Vecを提案する。
具体的には,畳み込みニューラルネットワークを用いて,空間的類似性を保ちながらストリートビュー画像から視覚特徴を抽出する。
さらに、各POIをカテゴリ、評価、レビュー情報を含む単語の袋としてモデル化する。
自然言語処理に文書を埋め込むためのアナロジとして、近傍の「文書」と周辺にあるPOIの単語のベクトル空間における意味的類似性を確立する。
視覚的,テキスト的,地理空間的な情報を近傍表現に共同で符号化することにより,Urban2Vecはベースラインモデルよりも優れた性能を達成し,下流予測タスクにおける完全教師付き手法に匹敵する性能を達成できる。
3つの大都市圏での大規模な実験は、モデル解釈可能性、一般化能力、および近隣の類似性分析におけるその価値を示す。
関連論文リスト
- StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model [12.789465279993864]
地理空間予測は災害管理、都市計画、公衆衛生など様々な分野において重要である。
提案するStreetViewLLMは,大規模言語モデルと連鎖推論とマルチモーダルデータソースを統合した新しいフレームワークである。
このモデルは、香港、東京、シンガポール、ロサンゼルス、ニューヨーク、ロンドン、パリを含む7つの世界都市に適用されている。
論文 参考訳(メタデータ) (2024-11-19T05:15:19Z) - Multimodal Contrastive Learning of Urban Space Representations from POI Data [2.695321027513952]
CaLLiPer (Contrastive Language-Location Pre-training) は連続的な都市空間をベクトル表現に埋め込む表現学習モデルである。
ロンドンにおける都市空間表現の学習に適用し,CaLLiPerの有効性を検証する。
論文 参考訳(メタデータ) (2024-11-09T16:24:07Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。
我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。
実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T11:54:35Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Hex2vec -- Context-Aware Embedding H3 Hexagons with OpenStreetMap Tags [9.743315439284407]
都市機能と土地利用に関する地域ベクトル表現をマイクロエリアグリッドで学習するための最初のアプローチを提案する。
土地利用, 建築, 都市域の機能, 水の種類, 緑その他の自然地域の主な特徴に関連するOpenStreetMapタグのサブセットを同定する。
結果として得られるベクトル表現は、ベクトルベースの言語モデルに見られるものと同様、地図特性のセマンティック構造を示す。
論文 参考訳(メタデータ) (2021-11-01T14:22:53Z) - Learning Neighborhood Representation from Multi-Modal Multi-Graph:
Image, Text, Mobility Graph and Beyond [20.014906526266795]
本稿では,マルチモーダルジオタグ入力をノードまたはエッジの特徴として統合する新しい手法を提案する。
具体的には、ストリートビュー画像とpoi特徴を用いて、近傍(ノード)を特徴付け、人間移動を用いて近隣(方向エッジ)間の関係を特徴付ける。
トレーニングした埋め込みは、ユニモーダルデータのみを地域入力として使用するものよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T07:44:05Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。