Fugu-MT 論文翻訳(概要): OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

論文の概要: OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

arxiv url: http://arxiv.org/abs/2511.13655v1
Date: Mon, 17 Nov 2025 18:06:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-18 18:52:09.661599
Title: OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation
Title（参考訳）: OlmoEarth:マルチモーダル地球観測のための安定遅延画像モデリング
Authors: Henry Herzog, Favyen Bastani, Yawen Zhang, Gabriel Tseng, Joseph Redmon, Hadrien Sablon, Ryan Park, Jacob Morrison, Alexandra Buraczynski, Karen Farley, Joshua Hansen, Andrew Howe, Patrick Alan Johnson, Mark Otterlee, Ted Schmitt, Hunter Pitelka, Stephen Daspit, Rachel Ratner, Christopher Wilhelm, Sebastian Wood, Mike Jacobi, Hannah Kerner, Evan Shelhamer, Ali Farhadi, Ranjay Krishna, Patrick Beukema,
Abstract要約: オルモアース(OlmoEarth)は、地球観測領域向けに設計された、多モードでシーケンシャルな基礎モデルである。 OlmoEarthは12のファンデーションモデルと比較して最先端のパフォーマンスを実現している。我々はOlmoEarthを、データ収集、ラベル付け、トレーニング観察、地球観測モデルの推測のためのエンドツーエンドプラットフォームのバックボーンとして配置する。
参考スコア（独自算出の注目度）: 68.10925029626709
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Earth observation data presents a unique challenge: it is spatial like images, sequential like video or text, and highly multimodal. We present OlmoEarth: a multimodal, spatio-temporal foundation model that employs a novel self-supervised learning formulation, masking strategy, and loss all designed for the Earth observation domain. OlmoEarth achieves state-of-the-art performance compared to 12 other foundation models across a variety of research benchmarks and real-world tasks from external partners. When evaluating embeddings OlmoEarth achieves the best performance on 15 out of 24 tasks, and with full fine-tuning it is the best on 19 of 29 tasks. We deploy OlmoEarth as the backbone of an end-to-end platform for data collection, labeling, training, and inference of Earth observation models. The OlmoEarth Platform puts frontier foundation models and powerful data management tools into the hands of non-profits and NGOs working to solve the world's biggest problems. OlmoEarth source code, training data, and pre-trained weights are available at $\href{https://github.com/allenai/olmoearth_pretrain}{\text{https://github.com/allenai/olmoearth_pretrain}}$.
Abstract（参考訳）: 地球観測データは、画像のように空間的であり、ビデオやテキストのように逐次的であり、高度にマルチモーダルである。我々は,地球観測領域用に設計された,新しい自己教師型学習定式化,マスキング戦略,損失を利用した多モーダル・時空間基礎モデルであるOlmoEarthを提案する。 OlmoEarthは、さまざまな研究ベンチマークや、外部パートナーの実際のタスクを含む、12の他の基礎モデルと比較して、最先端のパフォーマンスを実現している。埋め込みを評価する場合、OlmoEarthは24タスク中15タスクで最高のパフォーマンスを達成する。我々はOlmoEarthを、データ収集、ラベル付け、トレーニング、地球観測モデルの推論のためのエンドツーエンドプラットフォームのバックボーンとして配置する。 OlmoEarth Platformは、世界の最大の問題を解決しようとしている非営利団体やNGOの手に、フロンティア基盤モデルと強力なデータ管理ツールを提供します。 OlmoEarthのソースコード、トレーニングデータ、および事前トレーニングされたウェイトは、$\href{https://github.com/allenai/olmoearth_pretrain}{\text{https://github.com/allenai/olmoearth_pretrain}}$で入手できる。

関連論文リスト

TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。 TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文参考訳（メタデータ） (2025-06-06T17:59:50Z)
OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data [72.98496934729245]
地球科学におけるマルチモーダル学習のための既存のベンチマークは、地球の球体とその球体間相互作用の限定されたサイロ化されたカバレッジを提供する。 textbf OmniEarth-Benchは、6つの球体すべてに体系的にまたがる最初のマルチモーダルベンチマークである。 OmniEarth-Benchはスケーラブルでモジュール型のトポロジデータ推論フレームワークとネイティブなマルチオブザーブレーションソースで構築され、29,855の標準化された専門家によるアノテーションを生成する。
論文参考訳（メタデータ） (2025-05-29T15:02:27Z)
Towards LLM Agents for Earth Observation [63.163707376462405]
これは、NASAの地球観測所の記事から13のトピックと17の衛星センサーに関する140のイエス/ノーの質問のベンチマークである。 Google Earth Engine APIをツールとして使用すると、LLMエージェントは58%以上のコードを実行できないため、33%の精度しか達成できない。我々は、合成データを微調整することで、オープンモデルの失敗率を改善し、より小さなモデルの方が、はるかに大きなモデルに匹敵する精度が得られるようにした。
論文参考訳（メタデータ） (2025-04-16T14:19:25Z)
TerraMesh: A Planetary Mosaic of Multimodal Earth Observation Data [3.674991996196602]
TerraMeshは、光、レーダー、高度、開口、ランドレディのモダリティをData-Readyフォーマットで組み合わせた、グローバルに多様なマルチモーダルデータセットである。本研究では,TerraMeshで事前学習した際のモデル性能の向上を示す詳細なデータ処理手順,包括的統計,実証的証拠を提供する。
論文参考訳（メタデータ） (2025-04-15T13:20:35Z)
TerraMind: Large-Scale Generative Multimodality for Earth Observation [9.1127434195526]
TerraMindは、地球観測のための初の生成的マルチモーダル基礎モデルである。他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータを組み合わせたデュアルスケール表現で事前訓練されている。
論文参考訳（メタデータ） (2025-04-15T13:17:39Z)
EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文参考訳（メタデータ） (2025-01-14T13:42:22Z)
GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文参考訳（メタデータ） (2024-12-15T14:21:19Z)
Ben-ge: Extending BigEarthNet with Geographical and Environmental Data [1.1377027568901037]
本稿では,世界規模で利用可能な地理・環境データを自由にコンパイルすることで,BigEarthNet-MMデータセットを補完するben-geデータセットを提案する。このデータセットに基づいて、パッチベースの土地利用/土地被覆分類と土地利用/土地被覆区分の下流タスクに異なるデータモダリティを組み合わせる価値を示す。
論文参考訳（メタデータ） (2023-07-04T14:17:54Z)
SSL4EO-L: Datasets and Foundation Models for Landsat Imagery [8.34029977985994]
ランドサット計画 (Landsat program) は、過去最長の地球観測計画であり、8つの衛星による50年以上のデータ取得である。深層学習やリモートセンシングの普及にもかかわらず、ほとんどの研究者はランドサットの画像解析に決定木とランダムな森林を使っている。本稿では,ランドサット衛星群を対象としたセルフ・スーパーバイザード・ラーニング・フォー・アース・オブ・オブ・アース・オブ・ザ・観察のために設計された最初のデータセットであるSSL4EO-Lを紹介する。
論文参考訳（メタデータ） (2023-06-15T18:11:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。