論文の概要: OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation
- arxiv url: http://arxiv.org/abs/2511.13655v1
- Date: Mon, 17 Nov 2025 18:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.661599
- Title: OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation
- Title(参考訳): OlmoEarth:マルチモーダル地球観測のための安定遅延画像モデリング
- Authors: Henry Herzog, Favyen Bastani, Yawen Zhang, Gabriel Tseng, Joseph Redmon, Hadrien Sablon, Ryan Park, Jacob Morrison, Alexandra Buraczynski, Karen Farley, Joshua Hansen, Andrew Howe, Patrick Alan Johnson, Mark Otterlee, Ted Schmitt, Hunter Pitelka, Stephen Daspit, Rachel Ratner, Christopher Wilhelm, Sebastian Wood, Mike Jacobi, Hannah Kerner, Evan Shelhamer, Ali Farhadi, Ranjay Krishna, Patrick Beukema,
- Abstract要約: オルモアース(OlmoEarth)は、地球観測領域向けに設計された、多モードでシーケンシャルな基礎モデルである。
OlmoEarthは12のファンデーションモデルと比較して最先端のパフォーマンスを実現している。
我々はOlmoEarthを、データ収集、ラベル付け、トレーニング観察、地球観測モデルの推測のためのエンドツーエンドプラットフォームのバックボーンとして配置する。
- 参考スコア(独自算出の注目度): 68.10925029626709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Earth observation data presents a unique challenge: it is spatial like images, sequential like video or text, and highly multimodal. We present OlmoEarth: a multimodal, spatio-temporal foundation model that employs a novel self-supervised learning formulation, masking strategy, and loss all designed for the Earth observation domain. OlmoEarth achieves state-of-the-art performance compared to 12 other foundation models across a variety of research benchmarks and real-world tasks from external partners. When evaluating embeddings OlmoEarth achieves the best performance on 15 out of 24 tasks, and with full fine-tuning it is the best on 19 of 29 tasks. We deploy OlmoEarth as the backbone of an end-to-end platform for data collection, labeling, training, and inference of Earth observation models. The OlmoEarth Platform puts frontier foundation models and powerful data management tools into the hands of non-profits and NGOs working to solve the world's biggest problems. OlmoEarth source code, training data, and pre-trained weights are available at $\href{https://github.com/allenai/olmoearth_pretrain}{\text{https://github.com/allenai/olmoearth_pretrain}}$.
- Abstract(参考訳): 地球観測データは、画像のように空間的であり、ビデオやテキストのように逐次的であり、高度にマルチモーダルである。
我々は,地球観測領域用に設計された,新しい自己教師型学習定式化,マスキング戦略,損失を利用した多モーダル・時空間基礎モデルであるOlmoEarthを提案する。
OlmoEarthは、さまざまな研究ベンチマークや、外部パートナーの実際のタスクを含む、12の他の基礎モデルと比較して、最先端のパフォーマンスを実現している。
埋め込みを評価する場合、OlmoEarthは24タスク中15タスクで最高のパフォーマンスを達成する。
我々はOlmoEarthを、データ収集、ラベル付け、トレーニング、地球観測モデルの推論のためのエンドツーエンドプラットフォームのバックボーンとして配置する。
OlmoEarth Platformは、世界の最大の問題を解決しようとしている非営利団体やNGOの手に、フロンティア基盤モデルと強力なデータ管理ツールを提供します。
OlmoEarthのソースコード、トレーニングデータ、および事前トレーニングされたウェイトは、$\href{https://github.com/allenai/olmoearth_pretrain}{\text{https://github.com/allenai/olmoearth_pretrain}}$で入手できる。
関連論文リスト
- TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data [72.98496934729245]
地球科学におけるマルチモーダル学習のための既存のベンチマークは、地球の球体とその球体間相互作用の限定されたサイロ化されたカバレッジを提供する。
textbf OmniEarth-Benchは、6つの球体すべてに体系的にまたがる最初のマルチモーダルベンチマークである。
OmniEarth-Benchはスケーラブルでモジュール型のトポロジデータ推論フレームワークとネイティブなマルチオブザーブレーションソースで構築され、29,855の標準化された専門家によるアノテーションを生成する。
論文 参考訳(メタデータ) (2025-05-29T15:02:27Z) - Towards LLM Agents for Earth Observation [63.163707376462405]
これは、NASAの地球観測所の記事から13のトピックと17の衛星センサーに関する140のイエス/ノーの質問のベンチマークである。
Google Earth Engine APIをツールとして使用すると、LLMエージェントは58%以上のコードを実行できないため、33%の精度しか達成できない。
我々は、合成データを微調整することで、オープンモデルの失敗率を改善し、より小さなモデルの方が、はるかに大きなモデルに匹敵する精度が得られるようにした。
論文 参考訳(メタデータ) (2025-04-16T14:19:25Z) - TerraMesh: A Planetary Mosaic of Multimodal Earth Observation Data [3.674991996196602]
TerraMeshは、光、レーダー、高度、開口、ランドレディのモダリティをData-Readyフォーマットで組み合わせた、グローバルに多様なマルチモーダルデータセットである。
本研究では,TerraMeshで事前学習した際のモデル性能の向上を示す詳細なデータ処理手順,包括的統計,実証的証拠を提供する。
論文 参考訳(メタデータ) (2025-04-15T13:20:35Z) - TerraMind: Large-Scale Generative Multimodality for Earth Observation [9.1127434195526]
TerraMindは、地球観測のための初の生成的マルチモーダル基礎モデルである。
他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータを組み合わせたデュアルスケール表現で事前訓練されている。
論文 参考訳(メタデータ) (2025-04-15T13:17:39Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。