論文の概要: TerraMind: Large-Scale Generative Multimodality for Earth Observation
- arxiv url: http://arxiv.org/abs/2504.11171v1
- Date: Tue, 15 Apr 2025 13:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 00:59:41.280708
- Title: TerraMind: Large-Scale Generative Multimodality for Earth Observation
- Title(参考訳): TerraMind:地球観測のための大規模生成マルチモーダリティ
- Authors: Johannes Jakubik, Felix Yang, Benedikt Blumenstiel, Erik Scheurer, Rocco Sedona, Stefano Maurogiovanni, Jente Bosmans, Nikolaos Dionelis, Valerio Marsocci, Niklas Kopp, Rahul Ramachandran, Paolo Fraccaro, Thomas Brunschwiler, Gabriele Cavallaro, Juan Bernabe-Moreno, Nicolas Longépé,
- Abstract要約: TerraMindは、地球観測のための初の生成的マルチモーダル基礎モデルである。
他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータを組み合わせたデュアルスケール表現で事前訓練されている。
- 参考スコア(独自算出の注目度): 3.5472166810202457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TerraMind, the first any-to-any generative, multimodal foundation model for Earth observation (EO). Unlike other multimodal models, TerraMind is pretrained on dual-scale representations combining both token-level and pixel-level data across modalities. On a token level, TerraMind encodes high-level contextual information to learn cross-modal relationships, while on a pixel level, TerraMind leverages fine-grained representations to capture critical spatial nuances. We pretrained TerraMind on nine geospatial modalities of a global, large-scale dataset. In this paper, we demonstrate that (i) TerraMind's dual-scale early fusion approach unlocks a range of zero-shot and few-shot applications for Earth observation, (ii) TerraMind introduces "Thinking-in-Modalities" (TiM) -- the capability of generating additional artificial data during finetuning and inference to improve the model output -- and (iii) TerraMind achieves beyond state-of-the-art performance in community-standard benchmarks for EO like PANGAEA. The pretraining dataset, the model weights, and our code is open-sourced under a permissive license.
- Abstract(参考訳): 地球観測(EO)のための生成的・多モード基盤モデルであるTerraMindについて紹介する。
他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータの両方をモダリティで組み合わせたデュアルスケールの表現で事前訓練されている。
トークンレベルでは、TerraMindは高レベルのコンテキスト情報を符号化してクロスモーダルな関係を学習し、ピクセルレベルでは、TerraMindはきめ細かい表現を活用して重要な空間ニュアンスをキャプチャする。
グローバルな大規模データセットの9つの地理空間的モダリティに基づいてTerraMindを事前訓練した。
本稿では,それを実証する。
(i)TerraMindのデュアルスケールアーリーフュージョンアプローチは、地球観測にさまざまなゼロショットと少数ショットの応用を解き放つ。
(ii)TerraMindが"Thinking-in-Modalities"(TiM)を導入した。
(iii)TerraMindはPANGAEAのようなEOのコミュニティ標準ベンチマークにおいて、最先端のパフォーマンス以上のものを実現している。
事前トレーニングデータセット、モデルの重み付け、私たちのコードはパーミッシブライセンスの下でオープンソース化されています。
関連論文リスト
- TerraMesh: A Planetary Mosaic of Multimodal Earth Observation Data [3.674991996196602]
TerraMeshは、光学、レーダー、標高、土地被覆のモダリティを単一のフォーマットで組み合わせた、グローバルに多様なマルチモーダルデータセットである。
本研究では,TerraMeshで事前学習した際のモデル性能の向上を示す詳細なデータ処理手順,包括的統計,実証的証拠を提供する。
データセットはパーミッシブライセンスで公開されている。
論文 参考訳(メタデータ) (2025-04-15T13:20:35Z) - MESA: Text-Driven Terrain Generation Using Latent Diffusion and Global Copernicus Data [0.0]
我々は、手続き的な地形モデリングに代わる新しいデータ中心のMESAを提案する。
MESAはグローバルリモートセンシングデータを用いてテキスト記述から高品質な地形サンプルを生成する。
このモデルの能力は広範な実験を通じて実証され、現実的で多様な地形を生成する能力を強調している。
論文 参考訳(メタデータ) (2025-04-09T18:37:24Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control [97.98560001760126]
複数の空間制御入力に基づいて世界シミュレーションを生成する条件付き世界生成モデルであるCosmos-Transferを導入する。
提案したモデルを解析し,ロボット2Realや自律走行車データ豊かさを含む物理AIへの応用を実証するために評価を行う。
論文 参考訳(メタデータ) (2025-03-18T17:57:54Z) - GeoLangBind: Unifying Earth Observation with Agglomerative Vision-Language Foundation Models [27.878058177228727]
GeoLangBindは、新しい集合的視覚-言語基盤モデルである。
言語を統一媒体とする異種EOデータモダリティ間のギャップを埋める。
我々のアプローチは、異なるEOデータ型を共通の言語埋め込みスペースに整合させる。
論文 参考訳(メタデータ) (2025-03-08T19:10:04Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z) - OmniSat: Self-Supervised Modality Fusion for Earth Observation [5.767156832161819]
OmniSatは、多様なEOモダリティをラベルなしで表現的特徴にマージできる新しいアーキテクチャである。
3つの下流タスクで示されているように、OmniSatは監督なしでリッチな表現を学ぶことができ、最先端のパフォーマンスをもたらす。
我々のマルチモーダル事前学習方式は,1つのモーダルしか推論できない場合でも性能が向上する。
論文 参考訳(メタデータ) (2024-04-12T09:31:55Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - Earthformer: Exploring Space-Time Transformers for Earth System
Forecasting [27.60569643222878]
本研究では,地球系予測のための時空間変圧器である地球変圧器を提案する。
Transformerは、Cuboid Attentionという、汎用的で柔軟で効率的な時空アテンションブロックに基づいている。
降水量計に関する2つの実世界のベンチマークとエルニーノ/サウス・テンポシエーションの実験は、アースフォーマーが最先端のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2022-07-12T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。