Fugu-MT 論文翻訳(概要): UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction

論文の概要: UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction

arxiv url: http://arxiv.org/abs/2403.16831v1
Date: Mon, 25 Mar 2024 14:57:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 20:54:11.382762
Title: UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction
Title（参考訳）: UrbanVLP: 都市指標予測のためのマルチグラニュラリティビジョンランゲージ事前学習基盤モデル
Authors: Xixuan Hao, Wei Chen, Yibo Yan, Siru Zhong, Kun Wang, Qingsong Wen, Yuxuan Liang,
Abstract要約: 都市指標予測は、データ駆動手法を用いて、多様な都市景観における社会経済指標を推定することを目的としている。事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
参考スコア（独自算出の注目度）: 26.693692853787756
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Urban indicator prediction aims to infer socio-economic metrics in diverse urban landscapes using data-driven methods. However, prevalent pre-trained models, particularly those reliant on satellite imagery, face dual challenges. Firstly, concentrating solely on macro-level patterns from satellite data may introduce bias, lacking nuanced details at micro levels, such as architectural details at a place. Secondly, the lack of interpretability in pre-trained models limits their utility in providing transparent evidence for urban planning. In response to these issues, we devise a novel Vision-Language Pre-Trained Model (UrbanVLP) in this paper. Our UrbanVLP seamlessly integrates multi-granularity information from both macro (satellite) and micro (street-view) levels, overcoming the limitations of prior pre-trained models. Moreover, it introduces automatic text generation and calibration, elevating interpretability in downstream applications by producing high-quality text descriptions of urban imagery. Rigorous experiments conducted across six socio-economic tasks underscore UrbanVLP's superior performance. We also deploy a web platform to verify its practicality.
Abstract（参考訳）: 都市指標予測は、データ駆動手法を用いて、多様な都市景観における社会経済指標を推定することを目的としている。しかし、一般的な事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。第一に、衛星データからマクロレベルのパターンのみに集中させることは、マイクロレベルの微妙な詳細、例えばある場所でのアーキテクチャの詳細を欠いたバイアスをもたらす可能性がある。第二に、事前訓練されたモデルにおける解釈可能性の欠如は、都市計画の透明な証拠を提供することにおける実用性を制限している。これらの問題に対応するために,本論文では,新しいビジョンランゲージ事前学習モデル(UrbanVLP)を考案する。我々のUrbanVLPは、マクロ(サテライト)レベルとマイクロ(ストリートビュー)レベルの複数粒度情報をシームレスに統合し、事前訓練されたモデルの制限を克服します。さらに、自動テキスト生成と校正を導入し、都市画像の高品質なテキスト記述を作成することにより、下流アプリケーションにおける解釈可能性を高める。社会経済の6つの課題にまたがる厳密な実験は、UrbanVLPの優れたパフォーマンスを浮き彫りにした。実用性を検証するためのWebプラットフォームも展開しています。

関連論文リスト

HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文参考訳（メタデータ） (2025-07-07T02:06:25Z)
CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing [18.67492140450614]
CityLensは、衛星やストリートビューの画像から社会経済指標を予測するために、大きな言語ビジョンモデル(LLVM)の能力を評価するために設計されたベンチマークである。経済、教育、犯罪、輸送、健康、環境の6つの主要な領域にまたがる、合計17のグローバルな分散都市をカバーするマルチモーダルデータセットを構築した。その結果,LLVMは有望な知覚・推論能力を示すが,都市社会経済指標の予測には限界があることが明らかとなった。
論文参考訳（メタデータ） (2025-05-31T12:25:33Z)
UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models [18.051209616917042]
UrbanMind は多面的都市動態予測のための空間時空間 LLM フレームワークである。 UrbanMindのコアとなるMuffin-MAEは、特殊なマスキング戦略を備えた多面式フュージョンマスク自動エンコーダである。複数の都市にまたがる実世界の都市データセットの実験は、UrbanMindが一貫して最先端のベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-05-16T19:38:06Z)
StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model [12.789465279993864]
地理空間予測は災害管理、都市計画、公衆衛生など様々な分野において重要である。提案するStreetViewLLMは,大規模言語モデルと連鎖推論とマルチモーダルデータソースを統合した新しいフレームワークである。このモデルは、香港、東京、シンガポール、ロサンゼルス、ニューヨーク、ロンドン、パリを含む7つの世界都市に適用されている。
論文参考訳（メタデータ） (2024-11-19T05:15:19Z)
Multimodal Contrastive Learning of Urban Space Representations from POI Data [2.695321027513952]
CaLLiPer (Contrastive Language-Location Pre-training) は連続的な都市空間をベクトル表現に埋め込む表現学習モデルである。ロンドンにおける都市空間表現の学習に適用し,CaLLiPerの有効性を検証する。
論文参考訳（メタデータ） (2024-11-09T16:24:07Z)
StreetSurfGS: Scalable Urban Street Surface Reconstruction with Planar-based Gaussian Splatting [85.67616000086232]
StreetSurfGSは、スケーラブルな街路景観の再構築に適したガウススプラッティングを利用するための最初の方法である。 StreetSurfGSは、平面ベースのオクツリー表現とセグメンテーショントレーニングを使用して、メモリコストを削減し、ユニークなカメラ特性に対応し、スケーラビリティを確保する。スパースビューとマルチスケールの課題に対処するために、隣接する情報と長期情報を活用する2段階マッチング戦略を用いる。
論文参考訳（メタデータ） (2024-10-06T04:21:59Z)
MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning [13.681538916025021]
MuseCLは、都市部の詳細なプロファイリングと社会経済予測のためのフレームワークである。ストリートビューとリモートセンシング画像のためのコントラスト的なサンプルペアを構築し,人間の移動性に類似点を生かした。これらの領域に埋め込まれたPOIテキストから,事前学習したテキストエンコーダを用いて意味的な洞察を抽出する。
論文参考訳（メタデータ） (2024-06-23T09:49:41Z)
CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks [10.22654338686634]
広範な一般知識と強力な推論能力を持つ大規模言語モデル(LLM)は、急速な開発と広範な応用が見られた。本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを設計する。我々は,CityBenchとして認識理解と意思決定の2つのカテゴリに8つの代表的都市タスクを設計する。
論文参考訳（メタデータ） (2024-06-20T02:25:07Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
UV-SAM: Adapting Segment Anything Model for Urban Village Identification [25.286722125746902]
政府は都市村を監視するための調査手法に大きく依存している。衛星画像から都市村の境界を正確に識別するために,UV-SAM という都市村区分にセグメンションモデル(SAM)を適用した。 UV-SAMは、まず小さなセマンティックセグメンテーションモデルを利用して、マスク、バウンディングボックス、画像表現などの都市村の混合プロンプトを生成し、それをSAMに送り込み、きめ細かい境界識別を行う。
論文参考訳（メタデータ） (2024-01-16T03:21:42Z)
UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web [37.332601383723585]
本稿では,テキストモダリティの知識を都市画像のプロファイリングに取り入れた最初のフレームワークを紹介する。オープンソースのImage-to-Text LLMにより,衛星画像毎の詳細なテキスト記述を生成する。モデルは画像とテキストのペアに基づいて訓練され、都市視覚表現学習のための自然言語の監督をシームレスに統一する。
論文参考訳（メタデータ） (2023-10-22T02:32:53Z)
Dual-stage Flows-based Generative Modeling for Traceable Urban Planning [33.03616838528995]
本稿では,正規化フローに基づく新しい生成フレームワーク,すなわちDual-stage Urban Flowsフレームワークを提案する。我々は、機能ゾーン間の関係を捉え、異なる側面の情報を融合するために、情報融合モジュールを使用します。我々の枠組みは、都市計画作業における他の生成モデルよりも優れる。
論文参考訳（メタデータ） (2023-10-03T21:49:49Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Unified Data Management and Comprehensive Performance Evaluation for Urban Spatial-Temporal Prediction [Experiment, Analysis & Benchmark] [78.05103666987655]
この研究は、多様な都市空間時間データセットにアクセスし活用する際の課題に対処する。都市空間・時空間のビッグデータ用に設計された統合ストレージフォーマットであるアトミックファイルを導入し,40種類の多様なデータセットでその有効性を検証する。多様なモデルとデータセットを使用して広範な実験を行い、パフォーマンスリーダーボードを確立し、有望な研究方向性を特定する。
論文参考訳（メタデータ） (2023-08-24T16:20:00Z)
Bilevel Generative Learning for Low-Light Vision [64.77933848939327]
本稿では、RAWからRGB領域へのデータ変換のための生成ブロックを導入することで、汎用的な低照度ビジョンソリューションを提案する。この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。そこで我々は,新しい二段階生成学習パラダイムを取得するために,低コストと高精度の異なる目標を目標とする2種類の学習戦略を開発した。
論文参考訳（メタデータ） (2023-08-07T07:59:56Z)
UrbanBIS: a Large-scale Benchmark for Fine-grained Urban Building Instance Segmentation [50.52615875873055]
都市BISは6つの実際の都市のシーンで構成され、25億点があり、面積は10.78平方キロメートルである。 UrbanBISは、建物、車両、植生、道路、橋など、豊富な都市オブジェクトに意味レベルのアノテーションを提供する。 UrbanBISは、きめ細かいサブカテゴリを導入した最初の3Dデータセットである。
論文参考訳（メタデータ） (2023-05-04T08:01:38Z)
Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。 BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文参考訳（メタデータ） (2023-04-28T08:06:05Z)
Knowledge-infused Contrastive Learning for Urban Imagery-based Socioeconomic Prediction [13.26632316765164]
衛星・ストリートビュー画像のようなウェブ上の都市画像は、社会経済予測の重要な情報源として現れてきた。本稿では,都市イメージに基づく社会経済予測のための知識注入型コントラスト学習モデルを提案する。提案手法は,衛星画像と路面画像の両方に適用可能である。
論文参考訳（メタデータ） (2023-02-25T14:53:17Z)
A Contextual Master-Slave Framework on Urban Region Graph for Urban Village Detection [68.84486900183853]
都市域を階層的にモデル化する都市域グラフ(URG)を構築した。そこで我々は,都市部をURGから効果的に検出する新しいコンテキスト・マスタ・スレーブ・フレームワークを設計した。提案手法は,都市部における紫外線検出の一般性と特異性のバランスをとることができる。
論文参考訳（メタデータ） (2022-11-26T18:17:39Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。 SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文参考訳（メタデータ） (2021-08-24T18:14:00Z)
Methodological Foundation of a Numerical Taxonomy of Urban Form [62.997667081978825]
本稿では, 生物系統学から得られた都市形態の数値分類法を提案する。我々は同質の都市組織タイプを導出し、それら間の全体形態的類似性を決定することにより、都市形態の階層的分類を生成する。フレーミングとプレゼンを行った後、プラハとアムステルダムの2都市でテストを行った。
論文参考訳（メタデータ） (2021-04-30T12:47:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。