論文の概要: GeoMeld: Toward Semantically Grounded Foundation Models for Remote Sensing
- arxiv url: http://arxiv.org/abs/2604.10591v1
- Date: Sun, 12 Apr 2026 11:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.12181
- Title: GeoMeld: Toward Semantically Grounded Foundation Models for Remote Sensing
- Title(参考訳): GeoMeld:リモートセンシングのためのセマンティック基盤モデルを目指して
- Authors: Maram Hasan, Md Aminur Hossain, Savitra Roy, Souparna Bhowmik, Ayush V. Patel, Mainak Singha, Subhasis Chaudhuri, Muhammad Haris Khan, Biplab Banerjee,
- Abstract要約: GeoMeldは大規模なマルチモーダルデータセットで、約250万個の空間的に整列したサンプルがある。
GeoMeldは、エージェントキャプションフレームワークを通じて意味論的に基盤付けられた言語管理を提供する。
GeoMeld-FMは、アライメントされたモダリティ、JEPA表現学習、キャプション-ビジョンのコントラストアライメントを多言語で表した自動エンコーディングを組み合わせた事前トレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 33.72621953693859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective foundation modeling in remote sensing requires spatially aligned heterogeneous modalities coupled with semantically grounded supervision, yet such resources remain limited at scale. We present GeoMeld, a large-scale multimodal dataset with approximately 2.5 million spatially aligned samples. The dataset spans diverse modalities and resolutions and is constructed under a unified alignment protocol for modality-aware representation learning. GeoMeld provides semantically grounded language supervision through an agentic captioning framework that synthesizes and verifies annotations from spectral signals, terrain statistics, and structured geographic metadata, encoding measurable cross-modality relationships within textual descriptions. To leverage this dataset, we introduce GeoMeld-FM, a pretraining framework that combines multi-pretext masked autoencoding over aligned modalities, JEPA representation learning, and caption-vision contrastive alignment. This joint objective enables the learned representation space to capture both reliable cross-sensor physical consistency and grounded semantics. Experiments demonstrate consistent gains in downstream transfer and cross-sensor robustness. Together, GeoMeld and GeoMeld-FM establish a scalable reference framework for semantically grounded multi-modal foundation modeling in remote sensing.
- Abstract(参考訳): リモートセンシングにおける効果的な基礎モデリングには、空間的に整合した異質なモダリティと意味的に根ざした監督が必要であるが、そのようなリソースは大規模に限られている。
約250万個の空間整列サンプルを持つ大規模マルチモーダルデータセットであるGeoMeldについて述べる。
このデータセットは様々なモダリティと解像度にまたがり、モダリティを考慮した表現学習のための統一アライメントプロトコルで構築されている。
GeoMeldは、スペクトル信号、地形統計、構造化された地理的メタデータからアノテーションを合成し、検証するエージェントキャプションフレームワークを通じて、意味的に基盤付けられた言語監視を提供する。
このデータセットを活用するために,複数文字のマスク付きオートエンコーディング,JEPA表現学習,キャプション・ビジョンのコントラストアライメントを組み合わせた事前学習フレームワークGeoMeld-FMを導入する。
この共同目的により、学習された表現空間は信頼性の高いクロスセンサーの物理的一貫性と接地的意味論の両方を捉えることができる。
実験は下流移動とクロスセンサーロバスト性において一貫した利得を示す。
GeoMeldとGeoMeld-FMは、リモートセンシングにおけるセマンティックなマルチモーダル基礎モデリングのためのスケーラブルな参照フレームワークを構築している。
関連論文リスト
- GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization [8.559240391514063]
クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。
既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。
空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。
EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-10-23T06:07:07Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - A Sensor Agnostic Domain Generalization Framework for Leveraging Geospatial Foundation Models: Enhancing Semantic Segmentation viaSynergistic Pseudo-Labeling and Generative Learning [5.299218284699214]
高性能セグメンテーションモデルは、センサ、照明、地理のアノテーション不足と可変性によって挑戦されている。
本稿では,ソフトアライメント擬似ラベルとソース・ツー・ターゲット生成事前学習を組み合わせることで,新しい地理空間基盤モデルを活用するための領域一般化手法を提案する。
ハイパースペクトルおよびマルチスペクトルリモートセンシングデータセットを用いた実験により、適応性とセグメンテーションを向上させる方法の有効性が確認された。
論文 参考訳(メタデータ) (2025-05-02T19:52:02Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - SegDesicNet: Lightweight Semantic Segmentation in Remote Sensing with Geo-Coordinate Embeddings for Domain Adaptation [0.5461938536945723]
リモートセマンティックセマンティックセグメンテーションのための新しい教師なしドメイン適応手法を提案する。
提案するSegDesicNetモジュールは、単位球上に投影された座標のGRID位置符号化を遅らせ、ドメイン損失を得る。
我々のアルゴリズムは,人工ニューラルネットワークと物理世界の人間の理解とのモデリング格差を減らそうとしている。
論文 参考訳(メタデータ) (2025-03-11T11:01:18Z) - DOFA-CLIP: Multimodal Vision-Language Foundation Models for Earth Observation [27.878058177228727]
本稿では,1つのトランスフォーマーバックボーンを通じてフレキシブルなスペクトル構成でEOモダリティに適応する視覚言語基盤モデルであるDOFA-CLIPを提案する。
提案手法では, 大規模EO画像テキストデータセットであるGeoLangBind-2Mの構築, マルチビジョン基盤モデルによるCLIP特徴の空間的認識を高める VECT と呼ばれる新しいトレーニング戦略, モータリティを意識した知識集約(MaKA)モジュールの構築を行った。
論文 参考訳(メタデータ) (2025-03-08T19:10:04Z) - Cross-Modality Domain Adaptation for Freespace Detection: A Simple yet
Effective Baseline [21.197212665408262]
フリースペース検出は、カメラが捉えた画像の各ピクセルを、ドライビング可能または非駆動可能と分類することを目的としている。
我々はRGB画像と深度画像から生成された表面正規写像の両方を利用するクロスモダリティ領域適応フレームワークを開発した。
ソースドメイン(合成データ)とターゲットドメイン(実世界のデータ)のドメインギャップを埋めるため、選択的特徴アライメント(SFA)モジュールも提案する。
論文 参考訳(メタデータ) (2022-10-06T15:31:49Z) - Spatial Attention Pyramid Network for Unsupervised Domain Adaptation [66.75008386980869]
教師なし領域適応は様々なコンピュータビジョンタスクにおいて重要である。
教師なし領域適応のための新しい空間注意ピラミッドネットワークを設計する。
我々の手法は最先端の手法に対して大きなマージンで好適に機能する。
論文 参考訳(メタデータ) (2020-03-29T09:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。