論文の概要: UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction
- arxiv url: http://arxiv.org/abs/2403.16831v3
- Date: Wed, 22 Jan 2025 08:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:38.418322
- Title: UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction
- Title(参考訳): UrbanVLP: 都市社会経済指標予測のためのマルチグラニュラリティビジョンランゲージ事前学習
- Authors: Xixuan Hao, Wei Chen, Yibo Yan, Siru Zhong, Kun Wang, Qingsong Wen, Yuxuan Liang,
- Abstract要約: 都市社会経済指標の予測は、多様な都市景観における持続可能な開発に関連する様々な指標を推測することを目的としている。
事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
- 参考スコア(独自算出の注目度): 26.693692853787756
- License:
- Abstract: Urban socioeconomic indicator prediction aims to infer various metrics related to sustainable development in diverse urban landscapes using data-driven methods. However, prevalent pretrained models, particularly those reliant on satellite imagery, face dual challenges. Firstly, concentrating solely on macro-level patterns from satellite data may introduce bias, lacking nuanced details at micro levels, such as architectural details at a place. Secondly, the text generated by the precursor work UrbanCLIP, which fully utilizes the extensive knowledge of LLMs, frequently exhibits issues such as hallucination and homogenization, resulting in a lack of reliable quality. In response to these issues, we devise a novel framework entitled UrbanVLP based on Vision-Language Pretraining. Our UrbanVLP seamlessly integrates multi-granularity information from both macro (satellite) and micro (street-view) levels, overcoming the limitations of prior pretrained models. Moreover, it introduces automatic text generation and calibration, providing a robust guarantee for producing high-quality text descriptions of urban imagery. Rigorous experiments conducted across six socioeconomic indicator prediction tasks underscore its superior performance.
- Abstract(参考訳): 都市社会経済指標予測は、データ駆動手法を用いて、多様な都市景観における持続可能な開発に関連する様々な指標を推定することを目的としている。
しかし、一般的な事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
第一に、衛星データからマクロレベルのパターンのみに集中させることは、マイクロレベルの微妙な詳細、例えばある場所でのアーキテクチャの詳細を欠いたバイアスをもたらす可能性がある。
第2に、LLMの広範な知識を十分に活用した先駆的な著作であるUrbanCLIPが生成したテキストは、幻覚や均質化などの問題が多く、信頼性に欠ける。
これらの問題に対処して、ビジョン・ランゲージ事前学習に基づくUrbanVLPという新しいフレームワークを考案した。
我々のUrbanVLPは、マクロ(サテライト)レベルとマイクロ(ストリートビュー)レベルの複数粒度情報をシームレスに統合し、事前訓練されたモデルの制限を克服します。
さらに、自動テキスト生成と校正を導入し、都市画像の高品質なテキスト記述を作成するための堅牢な保証を提供する。
6つの社会経済指標予測タスクで実施された厳密な実験は、その優れた性能を示している。
関連論文リスト
- StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model [12.789465279993864]
地理空間予測は災害管理、都市計画、公衆衛生など様々な分野において重要である。
提案するStreetViewLLMは,大規模言語モデルと連鎖推論とマルチモーダルデータソースを統合した新しいフレームワークである。
このモデルは、香港、東京、シンガポール、ロサンゼルス、ニューヨーク、ロンドン、パリを含む7つの世界都市に適用されている。
論文 参考訳(メタデータ) (2024-11-19T05:15:19Z) - Multimodal Contrastive Learning of Urban Space Representations from POI Data [2.695321027513952]
CaLLiPer (Contrastive Language-Location Pre-training) は連続的な都市空間をベクトル表現に埋め込む表現学習モデルである。
ロンドンにおける都市空間表現の学習に適用し,CaLLiPerの有効性を検証する。
論文 参考訳(メタデータ) (2024-11-09T16:24:07Z) - StreetSurfGS: Scalable Urban Street Surface Reconstruction with Planar-based Gaussian Splatting [85.67616000086232]
StreetSurfGSは、スケーラブルな街路景観の再構築に適したガウススプラッティングを利用するための最初の方法である。
StreetSurfGSは、平面ベースのオクツリー表現とセグメンテーショントレーニングを使用して、メモリコストを削減し、ユニークなカメラ特性に対応し、スケーラビリティを確保する。
スパースビューとマルチスケールの課題に対処するために、隣接する情報と長期情報を活用する2段階マッチング戦略を用いる。
論文 参考訳(メタデータ) (2024-10-06T04:21:59Z) - UV-SAM: Adapting Segment Anything Model for Urban Village Identification [25.286722125746902]
政府は都市村を監視するための調査手法に大きく依存している。
衛星画像から都市村の境界を正確に識別するために,UV-SAM という都市村区分にセグメンションモデル(SAM)を適用した。
UV-SAMは、まず小さなセマンティックセグメンテーションモデルを利用して、マスク、バウンディングボックス、画像表現などの都市村の混合プロンプトを生成し、それをSAMに送り込み、きめ細かい境界識別を行う。
論文 参考訳(メタデータ) (2024-01-16T03:21:42Z) - UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web [37.332601383723585]
本稿では,テキストモダリティの知識を都市画像のプロファイリングに取り入れた最初のフレームワークを紹介する。
オープンソースのImage-to-Text LLMにより,衛星画像毎の詳細なテキスト記述を生成する。
モデルは画像とテキストのペアに基づいて訓練され、都市視覚表現学習のための自然言語の監督をシームレスに統一する。
論文 参考訳(メタデータ) (2023-10-22T02:32:53Z) - Dual-stage Flows-based Generative Modeling for Traceable Urban Planning [33.03616838528995]
本稿では,正規化フローに基づく新しい生成フレームワーク,すなわちDual-stage Urban Flowsフレームワークを提案する。
我々は、機能ゾーン間の関係を捉え、異なる側面の情報を融合するために、情報融合モジュールを使用します。
我々の枠組みは、都市計画作業における他の生成モデルよりも優れる。
論文 参考訳(メタデータ) (2023-10-03T21:49:49Z) - Unified Data Management and Comprehensive Performance Evaluation for
Urban Spatial-Temporal Prediction [Experiment, Analysis & Benchmark] [78.05103666987655]
この研究は、多様な都市空間時間データセットにアクセスし活用する際の課題に対処する。
都市空間・時空間のビッグデータ用に設計された統合ストレージフォーマットであるアトミックファイルを導入し,40種類の多様なデータセットでその有効性を検証する。
多様なモデルとデータセットを使用して広範な実験を行い、パフォーマンスリーダーボードを確立し、有望な研究方向性を特定する。
論文 参考訳(メタデータ) (2023-08-24T16:20:00Z) - UrbanBIS: a Large-scale Benchmark for Fine-grained Urban Building
Instance Segmentation [50.52615875873055]
都市BISは6つの実際の都市のシーンで構成され、25億点があり、面積は10.78平方キロメートルである。
UrbanBISは、建物、車両、植生、道路、橋など、豊富な都市オブジェクトに意味レベルのアノテーションを提供する。
UrbanBISは、きめ細かいサブカテゴリを導入した最初の3Dデータセットである。
論文 参考訳(メタデータ) (2023-05-04T08:01:38Z) - A Contextual Master-Slave Framework on Urban Region Graph for Urban
Village Detection [68.84486900183853]
都市域を階層的にモデル化する都市域グラフ(URG)を構築した。
そこで我々は,都市部をURGから効果的に検出する新しいコンテキスト・マスタ・スレーブ・フレームワークを設計した。
提案手法は,都市部における紫外線検出の一般性と特異性のバランスをとることができる。
論文 参考訳(メタデータ) (2022-11-26T18:17:39Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - Methodological Foundation of a Numerical Taxonomy of Urban Form [62.997667081978825]
本稿では, 生物系統学から得られた都市形態の数値分類法を提案する。
我々は同質の都市組織タイプを導出し、それら間の全体形態的類似性を決定することにより、都市形態の階層的分類を生成する。
フレーミングとプレゼンを行った後、プラハとアムステルダムの2都市でテストを行った。
論文 参考訳(メタデータ) (2021-04-30T12:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。