論文の概要: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation
- arxiv url: http://arxiv.org/abs/2403.15356v3
- Date: Wed, 15 Oct 2025 22:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.396573
- Title: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation
- Title(参考訳): ニューラル・プラスティック・インスパイアされた地球観測のための多モード基礎モデル
- Authors: Zhitong Xiong, Yi Wang, Fahong Zhang, Adam J. Stewart, Joëlle Hanna, Damian Borth, Ioannis Papoutsis, Bertrand Le Saux, Gustau Camps-Valls, Xiao Xiang Zhu,
- Abstract要約: 地球観測(EO)における多様な視覚タスクのための統一多モード基盤フレームワークを提案する。
神経可塑性にインスパイアされたDOFAは、波長条件の動的ハイパーネットワークを使用して、5つの異なる衛星センサーからの入力を柔軟に処理する。
センサ・ディバースEO領域における汎用視覚モデルの基礎としてのDOFAの可能性を示す。
- 参考スコア(独自算出の注目度): 47.52225194259896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Earth observation (EO) in open-world settings presents a unique challenge: different applications rely on diverse sensor modalities, each with varying ground sampling distances, spectral ranges, and numbers of spectral bands. However, existing EO foundation models are typically tailored to specific sensor types, making them inflexible when generalizing across the heterogeneous landscape of EO data. To address this, we propose the Dynamic One-For-All (DOFA) model, a unified, multimodal foundation framework designed for diverse vision tasks in EO. Inspired by neural plasticity, DOFA utilizes a wavelength-conditioned dynamic hypernetwork to process inputs from five distinct satellite sensors flexibly. By continually pretraining on five EO modalities, DOFA achieves state-of-the-art performance across multiple downstream tasks and generalizes well to unseen modalities. Enhanced with hybrid continual pretraining, DOFA+ requires significantly fewer computational resources while outperforming counterparts trained with extensive GPU budgets. Experiments on diverse datasets highlight DOFA's potential as a foundation for general-purpose vision models in the sensor-diverse EO domain. The code and pre-trained weights are publicly available at https://github.com/zhu-xlab/DOFA.
- Abstract(参考訳): 地球観測(EO)は、様々な用途で様々なセンサーのモードに依存しており、それぞれ異なる地中サンプリング距離、スペクトル範囲、スペクトルバンドの数がある。
しかし、既存のEOファンデーションモデルは、通常、特定のセンサータイプに合わせて調整されており、EOデータの異種ランドスケープを一般化する際には、非フレキシブルである。
そこで本稿では,EO における多様な視覚タスクを対象とした統一型マルチモーダル基盤フレームワークである Dynamic One-For-All (DOFA) モデルを提案する。
神経可塑性にインスパイアされたDOFAは、波長条件の動的ハイパーネットワークを使用して、5つの異なる衛星センサーからの入力を柔軟に処理する。
5つのEOモダリティを継続的に事前訓練することにより、DOFAは複数のダウンストリームタスクにまたがる最先端のパフォーマンスを達成し、目に見えないモダリティをうまく一般化する。
ハイブリッドな継続事前トレーニングで強化されたDOFA+では、計算リソースが大幅に少なくなります。
多様なデータセットの実験は、センサー・ディバースEOドメインにおける汎用視覚モデルの基礎としてのDOFAの可能性を強調している。
コードと事前トレーニングされたウェイトはhttps://github.com/zhu-xlab/DOFA.comで公開されている。
関連論文リスト
- Towards Scalable and Generalizable Earth Observation Data Mining via Foundation Model Composition [0.0]
リモートセンシングと一般ビジョンデータセットに事前訓練された基礎モデルを効果的に組み合わせて性能を向上させることができるかを検討する。
その結果、より小さな事前訓練モデルの特徴レベルのアンサンブルは、はるかに大きなモデルの性能に適合するか、超える可能性があることがわかった。
この研究は、よりコンパクトなモデルにアンサンブルの強度を伝達するために知識蒸留を適用する可能性を強調している。
論文 参考訳(メタデータ) (2025-06-25T07:02:42Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - Trajectory World Models for Heterogeneous Environments [67.27233466954814]
環境を横断するセンサーやアクチュエータの不均一性は、大規模な事前訓練された世界モデルを構築する上で大きな課題となる。
我々は80の環境から100万以上のトラジェクトリからなる統一データセットUniTrajを紹介した。
本稿では,様々なセンサやアクチュエータ情報を柔軟に処理し,環境ダイナミクスをコンテキスト内で捉えることのできる,新しいアーキテクチャであるTrajWorldを提案する。
論文 参考訳(メタデータ) (2025-02-03T13:59:08Z) - On Foundation Models for Dynamical Systems from Purely Synthetic Data [5.004576576202551]
基礎モデルは、様々な領域にわたる顕著な一般化、データ効率、ロバスト性を示してきた。
これらのモデルは自然言語処理やコンピュータビジョンなどの分野で利用できるが、力学系には存在しない。
合成データのみに基づくトランスフォーマーベース基礎モデルを事前学習することで,この問題に対処する。
本研究は, 一般化, データ効率, 堅牢性の観点から, スペシャリストモデルを上回った力学系の基礎モデルの実現可能性を示すものである。
論文 参考訳(メタデータ) (2024-11-30T08:34:10Z) - Foundation Models for Remote Sensing and Earth Observation: A Survey [101.77425018347557]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。
モチベーションと背景の概要から始まり、続いて基本概念が導入された。
我々はこれらのモデルを公開データセットと比較し、既存の課題について議論し、今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2024-10-22T01:08:21Z) - Multimodal Flare Forecasting with Deep Learning [0.2968738145616401]
色圏およびコロナUVおよびEUV放射の異なる波長での予測能力を比較するために、深層学習を採用している。
以上の結果から,EUVの波長は,視線磁図と同等以上の識別力が得られることが示唆された。
論文 参考訳(メタデータ) (2024-10-21T15:42:47Z) - Back to Bayesics: Uncovering Human Mobility Distributions and Anomalies with an Integrated Statistical and Neural Framework [14.899157568336731]
DeepBayesicは、ベイズ原理とディープニューラルネットワークを統合し、基盤となる分布をモデル化する新しいフレームワークである。
我々は,いくつかのモビリティデータセットに対するアプローチを評価し,最先端の異常検出手法の大幅な改善を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:02:06Z) - SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。
我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。
我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for
Enhanced Human Pose Estimation with Sparse Inertial Sensors [17.3834029178939]
本稿では,スパース慣性センサを用いた人間のポーズ推定手法を提案する。
さまざまなスケルトンフォーマットからの多様な実慣性モーションキャプチャデータを活用して、動作の多様性とモデル一般化を改善する。
このアプローチは、5つのパブリックデータセットにわたる最先端モデルよりも優れたパフォーマンスを示し、特にDIP-IMUデータセットのポーズエラーを19%削減する。
論文 参考訳(メタデータ) (2023-12-02T13:17:10Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。