論文の概要: City Foundation Models for Learning General Purpose Representations from OpenStreetMap
- arxiv url: http://arxiv.org/abs/2310.00583v3
- Date: Tue, 12 Nov 2024 06:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:16:29.663897
- Title: City Foundation Models for Learning General Purpose Representations from OpenStreetMap
- Title(参考訳): OpenStreetMapから一般目的表現を学習するための都市基盤モデル
- Authors: Pasquale Balsebre, Weiming Huang, Gao Cong, Yi Li,
- Abstract要約: 本稿では,都市のような選択された地理的関心領域における基礎モデルをトレーニングするためのフレームワークであるCityFMを紹介する。
CityFMはOpenStreetMapからのオープンデータにのみ依存し、異なるタイプのエンティティ、空間、視覚、およびテキスト情報のマルチモーダル表現を生成する。
すべての実験において、CityFMはベースラインに匹敵する、あるいは同等のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 16.09047066527081
- License:
- Abstract: Pre-trained Foundation Models (PFMs) have ushered in a paradigm-shift in Artificial Intelligence, due to their ability to learn general-purpose representations that can be readily employed in a wide range of downstream tasks. While PFMs have been successfully adopted in various fields such as Natural Language Processing and Computer Vision, their capacity in handling geospatial data and answering urban questions remains limited. This can be attributed to the intrinsic heterogeneity of geospatial data, which encompasses different data types, including points, segments and regions, as well as multiple information modalities, such as a spatial position, visual characteristics and textual annotations. The proliferation of Volunteered Geographic Information initiatives, and the ever-increasing availability of open geospatial data sources, like OpenStreetMap, which is freely accessible globally, unveil a promising opportunity to bridge this gap. In this paper, we present CityFM, a self-supervised framework to train a foundation model within a selected geographical area of interest, such as a city. CityFM relies solely on open data from OSM, and produces multimodal representations of entities of different types, incorporating spatial, visual, and textual information. We analyse the entity representations generated using our foundation models from a qualitative perspective, and conduct quantitative experiments on road, building, and region-level downstream tasks. We compare its results to algorithms tailored specifically for the respective applications. In all the experiments, CityFM achieves performance superior to, or on par with, the baselines.
- Abstract(参考訳): 事前訓練されたファンデーションモデル(PFM)は、幅広い下流タスクで容易に使用できる汎用表現を学習する能力のために、人工知能のパラダイムシフトに取って代わられている。
PFMは自然言語処理やコンピュータビジョンなど様々な分野で採用されているが、地理空間データを扱う能力や都市部の質問に答える能力は依然として限られている。
これは、点、セグメント、領域を含む異なるデータ型を含む地理空間データの固有の不均一性と、空間的位置、視覚的特徴、テキストアノテーションなどの複数の情報モダリティに起因している。
Volunteered Geographic Informationイニシアチブの急増と、世界中で自由に利用できるOpenStreetMapのようなオープンな地理空間データソースの普及により、このギャップを埋める有望な機会が明らかにされている。
本稿では,都市のような選択された地理的関心領域における基礎モデルを学習するための,自己指導型フレームワークであるCityFMを提案する。
CityFMはOSMからのオープンデータのみに依存し、空間情報、視覚情報、テキスト情報を組み込んだ異なるタイプのエンティティのマルチモーダル表現を生成する。
我々は,基礎モデルを用いて生成された実体表現を質的な観点から分析し,道路,建築,地域レベルの下流作業に関する定量的実験を行う。
それぞれのアプリケーションに特化されたアルゴリズムと比較する。
すべての実験において、CityFMはベースラインに匹敵する、あるいは同等のパフォーマンスを達成する。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - Position: Graph Foundation Models are Already Here [53.737868336014735]
グラフ基礎モデル(GFM)は、グラフ領域において重要な研究トピックとして浮上している。
グラフ語彙の提唱によるGFM開発のための新しい視点」を提案する。
この観点は、将来のGFM設計を、ニューラルネットワークのスケーリング法則に従って前進させる可能性がある。
論文 参考訳(メタデータ) (2024-02-03T17:24:36Z) - Charting New Territories: Exploring the Geographic and Geospatial
Capabilities of Multimodal LLMs [35.86744469804952]
MLLM(Multimodal large language model)は、幅広いタスクにおいて顕著な能力を示しているが、地理的および地理空間領域におけるその知識と能力はまだ研究されていない。
我々はこれらの領域におけるMLLMの様々な視覚能力を探索する一連の実験を行い、特にフロンティアモデル GPT-4V に注目した。
我々の手法は、視覚的なタスクからなる小さなベンチマークでこれらのモデルに挑戦し、その能力を様々な複雑さでテストする。
論文 参考訳(メタデータ) (2023-11-24T18:46:02Z) - Chatmap : Large Language Model Interaction with Cartographic Data [0.0]
OpenStreetMap(OSM)は、都市部と農村部の詳細な地理データを提供する、最も野心的なオープンソースグローバルイニシアチブである。
本研究では,比較的小規模(1Bパラメータ)の大規模言語モデル(LLM)を,より有能な教師モデルによってキュレートされた比較的小さな人工データセットを用いて微調整するプロセスの概念と詳細を実証する。
この研究は、このような生成的人工知能(AI)適応のための最初のガイドラインを提供し、この文脈で有用な新興能力の早期の兆候を示すことを目的としている。
論文 参考訳(メタデータ) (2023-09-28T15:32:36Z) - On the Opportunities and Challenges of Foundation Models for Geospatial
Artificial Intelligence [39.86997089245117]
ファンデーションモデル(FM)は、微調整、少数ショット、ゼロショット学習によって、幅広い下流タスクに適応することができる。
我々は,GeoAIのためのFMを開発する上で大きな課題の一つとして,地理空間的タスクのマルチモーダル性に対処することを提案する。
論文 参考訳(メタデータ) (2023-04-13T19:50:17Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z) - Learning Signal-Agnostic Manifolds of Neural Fields [50.066449953522685]
ニューラルネットワークを利用して、画像、形状、オーディオ、およびモーダル・オーディオヴィジュアル領域の基盤となる構造を捉える。
GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成できることが示される。
論文 参考訳(メタデータ) (2021-11-11T18:57:40Z) - GANmapper: geographical content filling [0.0]
本稿では,GAN(Generative Adversarial Network)を用いた空間データ生成手法を提案する。
当社のコントリビューションでは、粗大で広く利用可能な地理空間データを使用して、構築された環境のより細かいスケールで、あまり利用できない機能のマップを作成しています。
我々は、土地利用データと道路ネットワークを入力として、建物のフットプリントを生成し、世界中の9都市で実験を行う。
論文 参考訳(メタデータ) (2021-08-07T05:50:54Z) - Methodological Foundation of a Numerical Taxonomy of Urban Form [62.997667081978825]
本稿では, 生物系統学から得られた都市形態の数値分類法を提案する。
我々は同質の都市組織タイプを導出し、それら間の全体形態的類似性を決定することにより、都市形態の階層的分類を生成する。
フレーミングとプレゼンを行った後、プラハとアムステルダムの2都市でテストを行った。
論文 参考訳(メタデータ) (2021-04-30T12:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。