論文の概要: TerraMind: Large-Scale Generative Multimodality for Earth Observation
- arxiv url: http://arxiv.org/abs/2504.11171v1
- Date: Tue, 15 Apr 2025 13:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:38.631032
- Title: TerraMind: Large-Scale Generative Multimodality for Earth Observation
- Title(参考訳): TerraMind:地球観測のための大規模生成マルチモーダリティ
- Authors: Johannes Jakubik, Felix Yang, Benedikt Blumenstiel, Erik Scheurer, Rocco Sedona, Stefano Maurogiovanni, Jente Bosmans, Nikolaos Dionelis, Valerio Marsocci, Niklas Kopp, Rahul Ramachandran, Paolo Fraccaro, Thomas Brunschwiler, Gabriele Cavallaro, Juan Bernabe-Moreno, Nicolas Longépé,
- Abstract要約: TerraMindは、地球観測のための初の生成的マルチモーダル基礎モデルである。
他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータを組み合わせたデュアルスケール表現で事前訓練されている。
- 参考スコア(独自算出の注目度): 3.5472166810202457
- License:
- Abstract: We present TerraMind, the first any-to-any generative, multimodal foundation model for Earth observation (EO). Unlike other multimodal models, TerraMind is pretrained on dual-scale representations combining both token-level and pixel-level data across modalities. On a token level, TerraMind encodes high-level contextual information to learn cross-modal relationships, while on a pixel level, TerraMind leverages fine-grained representations to capture critical spatial nuances. We pretrained TerraMind on nine geospatial modalities of a global, large-scale dataset. In this paper, we demonstrate that (i) TerraMind's dual-scale early fusion approach unlocks a range of zero-shot and few-shot applications for Earth observation, (ii) TerraMind introduces "Thinking-in-Modalities" (TiM) -- the capability of generating additional artificial data during finetuning and inference to improve the model output -- and (iii) TerraMind achieves beyond state-of-the-art performance in community-standard benchmarks for EO like PANGAEA. The pretraining dataset, the model weights, and our code is open-sourced under a permissive license.
- Abstract(参考訳): 地球観測(EO)のための生成的・多モード基盤モデルであるTerraMindについて紹介する。
他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータの両方をモダリティで組み合わせたデュアルスケールの表現で事前訓練されている。
トークンレベルでは、TerraMindは高レベルのコンテキスト情報を符号化してクロスモーダルな関係を学習し、ピクセルレベルでは、TerraMindはきめ細かい表現を活用して重要な空間ニュアンスをキャプチャする。
グローバルな大規模データセットの9つの地理空間的モダリティに基づいてTerraMindを事前訓練した。
本稿では,それを実証する。
(i)TerraMindのデュアルスケールアーリーフュージョンアプローチは、地球観測にさまざまなゼロショットと少数ショットの応用を解き放つ。
(ii)TerraMindが"Thinking-in-Modalities"(TiM)を導入した。
(iii)TerraMindはPANGAEAのようなEOのコミュニティ標準ベンチマークにおいて、最先端のパフォーマンス以上のものを実現している。
事前トレーニングデータセット、モデルの重み付け、私たちのコードはパーミッシブライセンスの下でオープンソース化されています。
関連論文リスト
- EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。
我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。
我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - ImplicitTerrain: a Continuous Surface Model for Terrain Data Analysis [14.013976303831313]
ImplicitTerrainは、高解像度の地形を連続的に微分的にモデル化するための暗黙の神経表現(INR)アプローチである。
本実験では, 表面適合精度, 有効トポロジカル特徴抽出, 各種トポロジカル特徴抽出について検討した。
論文 参考訳(メタデータ) (2024-05-31T23:05:34Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z) - OmniSat: Self-Supervised Modality Fusion for Earth Observation [5.767156832161819]
OmniSatは、多様なEOモダリティをラベルなしで表現的特徴にマージできる新しいアーキテクチャである。
3つの下流タスクで示されているように、OmniSatは監督なしでリッチな表現を学ぶことができ、最先端のパフォーマンスをもたらす。
我々のマルチモーダル事前学習方式は,1つのモーダルしか推論できない場合でも性能が向上する。
論文 参考訳(メタデータ) (2024-04-12T09:31:55Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - Earthformer: Exploring Space-Time Transformers for Earth System
Forecasting [27.60569643222878]
本研究では,地球系予測のための時空間変圧器である地球変圧器を提案する。
Transformerは、Cuboid Attentionという、汎用的で柔軟で効率的な時空アテンションブロックに基づいている。
降水量計に関する2つの実世界のベンチマークとエルニーノ/サウス・テンポシエーションの実験は、アースフォーマーが最先端のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2022-07-12T20:52:26Z) - Deep Generative Framework for Interactive 3D Terrain Authoring and
Manipulation [4.202216894379241]
本稿では,VAEと生成条件GANモデルを組み合わせた新しいランドスケープオーサリングフレームワークを提案する。
我々のフレームワークは実世界の地形データセットから潜在空間を学習することで既存の手法の限界を克服しようとする例に基づく手法である。
我々はまた、ユーザが最小限の入力で多様な地形を生成できるインタラクティブツールを開発した。
論文 参考訳(メタデータ) (2022-01-07T08:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。