論文の概要: UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction
- arxiv url: http://arxiv.org/abs/2403.16831v1
- Date: Mon, 25 Mar 2024 14:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:54:11.382762
- Title: UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction
- Title(参考訳): UrbanVLP: 都市指標予測のためのマルチグラニュラリティビジョンランゲージ事前学習基盤モデル
- Authors: Xixuan Hao, Wei Chen, Yibo Yan, Siru Zhong, Kun Wang, Qingsong Wen, Yuxuan Liang,
- Abstract要約: 都市指標予測は、データ駆動手法を用いて、多様な都市景観における社会経済指標を推定することを目的としている。
事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
- 参考スコア(独自算出の注目度): 26.693692853787756
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Urban indicator prediction aims to infer socio-economic metrics in diverse urban landscapes using data-driven methods. However, prevalent pre-trained models, particularly those reliant on satellite imagery, face dual challenges. Firstly, concentrating solely on macro-level patterns from satellite data may introduce bias, lacking nuanced details at micro levels, such as architectural details at a place. Secondly, the lack of interpretability in pre-trained models limits their utility in providing transparent evidence for urban planning. In response to these issues, we devise a novel Vision-Language Pre-Trained Model (UrbanVLP) in this paper. Our UrbanVLP seamlessly integrates multi-granularity information from both macro (satellite) and micro (street-view) levels, overcoming the limitations of prior pre-trained models. Moreover, it introduces automatic text generation and calibration, elevating interpretability in downstream applications by producing high-quality text descriptions of urban imagery. Rigorous experiments conducted across six socio-economic tasks underscore UrbanVLP's superior performance. We also deploy a web platform to verify its practicality.
- Abstract(参考訳): 都市指標予測は、データ駆動手法を用いて、多様な都市景観における社会経済指標を推定することを目的としている。
しかし、一般的な事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
第一に、衛星データからマクロレベルのパターンのみに集中させることは、マイクロレベルの微妙な詳細、例えばある場所でのアーキテクチャの詳細を欠いたバイアスをもたらす可能性がある。
第二に、事前訓練されたモデルにおける解釈可能性の欠如は、都市計画の透明な証拠を提供することにおける実用性を制限している。
これらの問題に対応するために,本論文では,新しいビジョンランゲージ事前学習モデル(UrbanVLP)を考案する。
我々のUrbanVLPは、マクロ(サテライト)レベルとマイクロ(ストリートビュー)レベルの複数粒度情報をシームレスに統合し、事前訓練されたモデルの制限を克服します。
さらに、自動テキスト生成と校正を導入し、都市画像の高品質なテキスト記述を作成することにより、下流アプリケーションにおける解釈可能性を高める。
社会経済の6つの課題にまたがる厳密な実験は、UrbanVLPの優れたパフォーマンスを浮き彫りにした。
実用性を検証するためのWebプラットフォームも展開しています。
関連論文リスト
- UrbanGPT: Spatio-Temporal Large Language Models [34.79169613947957]
本稿では,時空間エンコーダと命令調整パラダイムをシームレスに統合するUrbanPTを提案する。
我々は、様々な公開データセットに対して広範囲な実験を行い、異なる時間的予測タスクをカバーした。
結果は、慎重に設計されたアーキテクチャを持つUrbanPTが、最先端のベースラインを一貫して上回っていることを一貫して示しています。
論文 参考訳(メタデータ) (2024-02-25T12:37:29Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - UV-SAM: Adapting Segment Anything Model for Urban Village Identification [25.286722125746902]
政府は都市村を監視するための調査手法に大きく依存している。
衛星画像から都市村の境界を正確に識別するために,UV-SAM という都市村区分にセグメンションモデル(SAM)を適用した。
UV-SAMは、まず小さなセマンティックセグメンテーションモデルを利用して、マスク、バウンディングボックス、画像表現などの都市村の混合プロンプトを生成し、それをSAMに送り込み、きめ細かい境界識別を行う。
論文 参考訳(メタデータ) (2024-01-16T03:21:42Z) - Visual Explanations of Image-Text Representations via Multi-Modal
Information Bottleneck Attribution [55.9275401570741]
視覚言語モデルの解釈性を改善するために,マルチモーダル情報ボトルネック手法を提案する。
視覚言語事前学習モデルの帰属分析にM2IBを適用する方法を示す。
論文 参考訳(メタデータ) (2023-12-28T18:02:22Z) - UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web [37.332601383723585]
本稿では,テキストモダリティの知識を都市画像のプロファイリングに取り入れた最初のフレームワークを紹介する。
オープンソースのImage-to-Text LLMにより,衛星画像毎の詳細なテキスト記述を生成する。
モデルは画像とテキストのペアに基づいて訓練され、都市視覚表現学習のための自然言語の監督をシームレスに統一する。
論文 参考訳(メタデータ) (2023-10-22T02:32:53Z) - Bilevel Generative Learning for Low-Light Vision [64.77933848939327]
本稿では、RAWからRGB領域へのデータ変換のための生成ブロックを導入することで、汎用的な低照度ビジョンソリューションを提案する。
この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。
そこで我々は,新しい二段階生成学習パラダイムを取得するために,低コストと高精度の異なる目標を目標とする2種類の学習戦略を開発した。
論文 参考訳(メタデータ) (2023-08-07T07:59:56Z) - Contextualizing MLP-Mixers Spatiotemporally for Urban Data Forecast at
Scale [57.38373754100004]
時空間データ(STUD)は複雑な相関パターンを示す。
STUDは大規模であることが多いため、実践者は有効性と効率のバランスをとる必要がある。
Nex-Mixerと呼ばれる別のパラダイムは、単純さと有効性の両方の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-04T05:19:19Z) - Origin-Destination Network Generation via Gravity-Guided GAN [9.03056486066899]
オリジン・デスティネーション(OD)の流れは、方向や体積を含む貴重な人口移動情報を含んでいる。
そこで本研究では,人口移動モデルを改善するために,Origin-Destination Generation Networks (ODGN) というモデルを構築することを提案する。
具体的には、まず、各地域の都市の特徴を捉えるための多視点グラフ注意ネットワーク(MGAT)を構築し、次に重力誘導予測器を用いて、2つの地域間のODフローを得る。
論文 参考訳(メタデータ) (2023-06-06T04:07:21Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Attention-based Contextual Multi-View Graph Convolutional Networks for
Short-term Population Prediction [0.0]
我々は、意図に基づくコンテキストグラフ畳み込みネットワーク(ACMV-GCNViews)と呼ばれる新しいディープラーニングモデルを提案する。
まず、都市環境情報に基づいて複数のグラフを構築し、それからACM-GCNViewsはグラフネットワークを用いた様々なビューから空間相関をキャプチャする。
携帯電話で収集した人口データを用いて,提案手法がベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2022-03-01T14:37:04Z) - Methodological Foundation of a Numerical Taxonomy of Urban Form [62.997667081978825]
本稿では, 生物系統学から得られた都市形態の数値分類法を提案する。
我々は同質の都市組織タイプを導出し、それら間の全体形態的類似性を決定することにより、都市形態の階層的分類を生成する。
フレーミングとプレゼンを行った後、プラハとアムステルダムの2都市でテストを行った。
論文 参考訳(メタデータ) (2021-04-30T12:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。