論文の概要: On the Opportunities and Challenges of Foundation Models for Geospatial
Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2304.06798v1
- Date: Thu, 13 Apr 2023 19:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 15:19:20.092903
- Title: On the Opportunities and Challenges of Foundation Models for Geospatial
Artificial Intelligence
- Title(参考訳): 地理空間型人工知能の基礎モデルの機会と課題
- Authors: Gengchen Mai, Weiming Huang, Jin Sun, Suhang Song, Deepak Mishra,
Ninghao Liu, Song Gao, Tianming Liu, Gao Cong, Yingjie Hu, Chris Cundy,
Ziyuan Li, Rui Zhu, Ni Lao
- Abstract要約: ファンデーションモデル(FM)は、微調整、少数ショット、ゼロショット学習によって、幅広い下流タスクに適応することができる。
我々は,GeoAIのためのFMを開発する上で大きな課題の一つとして,地理空間的タスクのマルチモーダル性に対処することを提案する。
- 参考スコア(独自算出の注目度): 39.86997089245117
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large pre-trained models, also known as foundation models (FMs), are trained
in a task-agnostic manner on large-scale data and can be adapted to a wide
range of downstream tasks by fine-tuning, few-shot, or even zero-shot learning.
Despite their successes in language and vision tasks, we have yet seen an
attempt to develop foundation models for geospatial artificial intelligence
(GeoAI). In this work, we explore the promises and challenges of developing
multimodal foundation models for GeoAI. We first investigate the potential of
many existing FMs by testing their performances on seven tasks across multiple
geospatial subdomains including Geospatial Semantics, Health Geography, Urban
Geography, and Remote Sensing. Our results indicate that on several geospatial
tasks that only involve text modality such as toponym recognition, location
description recognition, and US state-level/county-level dementia time series
forecasting, these task-agnostic LLMs can outperform task-specific
fully-supervised models in a zero-shot or few-shot learning setting. However,
on other geospatial tasks, especially tasks that involve multiple data
modalities (e.g., POI-based urban function classification, street view
image-based urban noise intensity classification, and remote sensing image
scene classification), existing foundation models still underperform
task-specific models. Based on these observations, we propose that one of the
major challenges of developing a FM for GeoAI is to address the multimodality
nature of geospatial tasks. After discussing the distinct challenges of each
geospatial data modality, we suggest the possibility of a multimodal foundation
model which can reason over various types of geospatial data through geospatial
alignments. We conclude this paper by discussing the unique risks and
challenges to develop such a model for GeoAI.
- Abstract(参考訳): ファンデーションモデル(FM)としても知られる大規模な事前学習モデルは、大規模データに対してタスクに依存しない方法で訓練されており、微調整、少数ショット、あるいはゼロショット学習によって幅広い下流タスクに適応することができる。
言語や視覚タスクの成功にもかかわらず、地理空間人工知能(GeoAI)の基礎モデルを開発する試みはまだ見受けられていない。
本研究では,GeoAIのマルチモーダル基盤モデル開発における課題と課題について考察する。
まず,地球空間セマンティックス,健康地理学,都市地理学,リモートセンシングなど,複数の地空間セマンティックス領域にまたがる7つのタスクで実測を行い,既存のFMの可能性を検証した。
以上の結果から,テキストモダリティのみを含む複数の地理空間的タスク(トポニム認識,位置記述認識,米国国家レベルの認知症時系列予測など)において,これらのタスク非依存のLSMは,ゼロショットや少数ショットの学習環境でタスク固有の完全教師付きモデルより優れていることが示唆された。
しかし、他の地理空間的タスク、特にPOIに基づく都市機能分類、ストリートビューに基づく都市騒音強度分類、リモートセンシング画像シーン分類などの複数のデータモダリティを含むタスクでは、既存の基礎モデルは依然としてタスク固有のモデルに劣る。
これらの観測に基づいて,GeoAIのためのFMを開発する上での大きな課題の1つは,地理空間的タスクのマルチモーダル性に対処することである。
各地理空間データモダリティの異なる課題について論じた後、地理空間アライメントを通じて様々な種類の地理空間データを推論できるマルチモーダル基礎モデルの可能性を提案する。
本稿は、GeoAIのこのようなモデルを開発するためのユニークなリスクと課題について論じる。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Geode: A Zero-shot Geospatial Question-Answering Agent with Explicit Reasoning and Precise Spatio-Temporal Retrieval [0.0]
本研究では,ゼロショット地理空間的質問応答タスクを高精度に処理するための先駆的システムを提案する。
当社のアプローチは,現在の大規模言語モデルの限界に対処する上で,大幅な改善を図っている。
論文 参考訳(メタデータ) (2024-06-26T21:59:54Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Charting New Territories: Exploring the Geographic and Geospatial
Capabilities of Multimodal LLMs [35.86744469804952]
MLLM(Multimodal large language model)は、幅広いタスクにおいて顕著な能力を示しているが、地理的および地理空間領域におけるその知識と能力はまだ研究されていない。
我々はこれらの領域におけるMLLMの様々な視覚能力を探索する一連の実験を行い、特にフロンティアモデル GPT-4V に注目した。
我々の手法は、視覚的なタスクからなる小さなベンチマークでこれらのモデルに挑戦し、その能力を様々な複雑さでテストする。
論文 参考訳(メタデータ) (2023-11-24T18:46:02Z) - Assessment of a new GeoAI foundation model for flood inundation mapping [4.312965283062856]
そこで本稿は,IBM-NASAのPrithviによる地空間基盤モデルの性能評価を行い,地空間解析の重要課題である洪水浸水マッピングを支援する。
実験では、ベンチマークデータセットであるSen1Floods11を使用し、モデルの予測可能性、一般化可能性、転送可能性を評価する。
以上の結果から, 未確認領域におけるセグメンテーションにおけるPrithviモデルの性能上の優位性が示された。
論文 参考訳(メタデータ) (2023-09-25T19:50:47Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Towards Geospatial Foundation Models via Continual Pretraining [22.825065739563296]
資源コストと炭素の影響を最小限に抑えた高効率基礎モデルを構築するための新しいパラダイムを提案する。
まず、複数のソースからコンパクトだが多様なデータセットを構築し、GeoPileと呼ぶ特徴の多様性を促進する。
次に,大規模なImageNet-22kモデルからの継続事前学習の可能性について検討し,多目的連続事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-09T07:39:02Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。