論文の概要: Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges
- arxiv url: http://arxiv.org/abs/2510.22964v1
- Date: Mon, 27 Oct 2025 03:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.435696
- Title: Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges
- Title(参考訳): マルチモーダル地空間基盤モデルに関する調査:技術・応用・課題
- Authors: Liling Yang, Ning Chen, Jun Yue, Yidan Liu, Jiayi Ma, Pedram Ghamisi, Antonio Plaza, Leyuan Fang,
- Abstract要約: 基礎モデルは自然言語処理とコンピュータビジョンに変化をもたらした。
強力な一般化と伝達学習機能により、リモートセンシングデータのマルチモーダル、マルチレゾリューション、マルチ時間特性と自然に一致させる。
この調査は、モーダリティ駆動の観点から、マルチモーダルGFMの包括的なレビューを提供する。
- 参考スコア(独自算出の注目度): 54.669838624278924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have transformed natural language processing and computer vision, and their impact is now reshaping remote sensing image analysis. With powerful generalization and transfer learning capabilities, they align naturally with the multimodal, multi-resolution, and multi-temporal characteristics of remote sensing data. To address unique challenges in the field, multimodal geospatial foundation models (GFMs) have emerged as a dedicated research frontier. This survey delivers a comprehensive review of multimodal GFMs from a modality-driven perspective, covering five core visual and vision-language modalities. We examine how differences in imaging physics and data representation shape interaction design, and we analyze key techniques for alignment, integration, and knowledge transfer to tackle modality heterogeneity, distribution shifts, and semantic gaps. Advances in training paradigms, architectures, and task-specific adaptation strategies are systematically assessed alongside a wealth of emerging benchmarks. Representative multimodal visual and vision-language GFMs are evaluated across ten downstream tasks, with insights into their architectures, performance, and application scenarios. Real-world case studies, spanning land cover mapping, agricultural monitoring, disaster response, climate studies, and geospatial intelligence, demonstrate the practical potential of GFMs. Finally, we outline pressing challenges in domain generalization, interpretability, efficiency, and privacy, and chart promising avenues for future research.
- Abstract(参考訳): ファウンデーションモデルは自然言語処理とコンピュータビジョンを変革し、その影響はリモートセンシング画像分析を再構築している。
強力な一般化と伝達学習機能により、リモートセンシングデータのマルチモーダル、マルチレゾリューション、マルチ時間特性と自然に一致させる。
この分野でユニークな課題に対処するために、多モード地理空間基盤モデル(GFM)が研究フロンティアとして登場した。
本調査では,5つの視覚的・視覚言語的モダリティを網羅し,モダリティ駆動の観点から,マルチモーダルGFMの包括的レビューを行う。
画像物理とデータ表現形状の相互作用設計の違いについて検討し、アライメント、統合、知識伝達の鍵となる技術を分析し、モダリティの不均一性、分布シフト、セマンティックギャップに対処する。
トレーニングパラダイム、アーキテクチャ、タスク固有の適応戦略の進歩は、豊富な新興ベンチマークとともに体系的に評価されている。
代表的マルチモーダル視覚および視覚言語GFMは、10の下流タスクで評価され、アーキテクチャ、パフォーマンス、アプリケーションシナリオに関する洞察が得られる。
ランドカバーマッピング、農業モニタリング、災害対応、気候研究、地理空間知能といった実世界のケーススタディは、GFMの実用可能性を示している。
最後に,ドメインの一般化,解釈可能性,効率性,プライバシといった課題について概説する。
関連論文リスト
- Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - Graph Foundation Models: A Comprehensive Survey [66.74249119139661]
Graph Foundation Models (GFMs)は、構造化データにスケーラブルで汎用的なインテリジェンスを提供することを目指している。
この調査は、GFMの概要を包括的に提供し、モジュラーフレームワークの下での多様な取り組みを統合する。
GFMは構造化データに対するオープンエンド推論の基盤となる。
論文 参考訳(メタデータ) (2025-05-21T05:08:00Z) - Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [49.073964142139495]
マルチモーダル融合法と視覚言語モデルの適用と進歩を体系的に検討する。
セマンティックシーン理解タスクでは、エンコーダデコーダフレームワーク、アテンションベースアーキテクチャ、グラフニューラルネットワークに融合アプローチを分類する。
クロスモーダルアライメント、効率的な融合、リアルタイムデプロイメント、ドメイン適応など、現在の研究における重要な課題を特定します。
論文 参考訳(メタデータ) (2025-04-03T10:53:07Z) - Multimodal Alignment and Fusion: A Survey [11.3029945633295]
このサーベイは、機械学習分野におけるマルチモーダルアライメントと融合の進歩に関する包括的概要を提供する。
我々は、両構造の観点から、アライメントと融合の鍵となるアプローチを体系的に分類し、分析する。
この調査は、クロスモーダルなミスアライメント、計算ボトルネック、データ品質の問題、モダリティギャップといった重要な課題を強調します。
論文 参考訳(メタデータ) (2024-11-26T02:10:27Z) - Foundation Models for Remote Sensing and Earth Observation: A Survey [101.77425018347557]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。
モチベーションと背景の概要から始まり、続いて基本概念が導入された。
我々はこれらのモデルを公開データセットと比較し、既存の課題について議論し、今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2024-10-22T01:08:21Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - When Geoscience Meets Foundation Models: Towards General Geoscience Artificial Intelligence System [6.445323648941926]
地球科学基礎モデル(Geoscience foundation model, GFMs)は、地球系の力学のシミュレーションと理解を強化するために、広範な学際データを統合するパラダイムシフトソリューションである。
GFMのユニークな長所は、フレキシブルなタスク仕様、多様な入出力能力、マルチモーダルな知識表現である。
このレビューは、先進的なAI技術と地球科学の交差点における未解決の機会を強調した、新興の地球科学研究パラダイムの包括的概要を提供する。
論文 参考訳(メタデータ) (2023-09-13T08:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。