論文の概要: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation
- arxiv url: http://arxiv.org/abs/2403.15356v3
- Date: Wed, 15 Oct 2025 22:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.396573
- Title: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation
- Title(参考訳): ニューラル・プラスティック・インスパイアされた地球観測のための多モード基礎モデル
- Authors: Zhitong Xiong, Yi Wang, Fahong Zhang, Adam J. Stewart, Joëlle Hanna, Damian Borth, Ioannis Papoutsis, Bertrand Le Saux, Gustau Camps-Valls, Xiao Xiang Zhu,
- Abstract要約: 地球観測(EO)における多様な視覚タスクのための統一多モード基盤フレームワークを提案する。
神経可塑性にインスパイアされたDOFAは、波長条件の動的ハイパーネットワークを使用して、5つの異なる衛星センサーからの入力を柔軟に処理する。
センサ・ディバースEO領域における汎用視覚モデルの基礎としてのDOFAの可能性を示す。
- 参考スコア(独自算出の注目度): 47.52225194259896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Earth observation (EO) in open-world settings presents a unique challenge: different applications rely on diverse sensor modalities, each with varying ground sampling distances, spectral ranges, and numbers of spectral bands. However, existing EO foundation models are typically tailored to specific sensor types, making them inflexible when generalizing across the heterogeneous landscape of EO data. To address this, we propose the Dynamic One-For-All (DOFA) model, a unified, multimodal foundation framework designed for diverse vision tasks in EO. Inspired by neural plasticity, DOFA utilizes a wavelength-conditioned dynamic hypernetwork to process inputs from five distinct satellite sensors flexibly. By continually pretraining on five EO modalities, DOFA achieves state-of-the-art performance across multiple downstream tasks and generalizes well to unseen modalities. Enhanced with hybrid continual pretraining, DOFA+ requires significantly fewer computational resources while outperforming counterparts trained with extensive GPU budgets. Experiments on diverse datasets highlight DOFA's potential as a foundation for general-purpose vision models in the sensor-diverse EO domain. The code and pre-trained weights are publicly available at https://github.com/zhu-xlab/DOFA.
- Abstract(参考訳): 地球観測(EO)は、様々な用途で様々なセンサーのモードに依存しており、それぞれ異なる地中サンプリング距離、スペクトル範囲、スペクトルバンドの数がある。
しかし、既存のEOファンデーションモデルは、通常、特定のセンサータイプに合わせて調整されており、EOデータの異種ランドスケープを一般化する際には、非フレキシブルである。
そこで本稿では,EO における多様な視覚タスクを対象とした統一型マルチモーダル基盤フレームワークである Dynamic One-For-All (DOFA) モデルを提案する。
神経可塑性にインスパイアされたDOFAは、波長条件の動的ハイパーネットワークを使用して、5つの異なる衛星センサーからの入力を柔軟に処理する。
5つのEOモダリティを継続的に事前訓練することにより、DOFAは複数のダウンストリームタスクにまたがる最先端のパフォーマンスを達成し、目に見えないモダリティをうまく一般化する。
ハイブリッドな継続事前トレーニングで強化されたDOFA+では、計算リソースが大幅に少なくなります。
多様なデータセットの実験は、センサー・ディバースEOドメインにおける汎用視覚モデルの基礎としてのDOFAの可能性を強調している。
コードと事前トレーニングされたウェイトはhttps://github.com/zhu-xlab/DOFA.comで公開されている。
関連論文リスト
- EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data [19.18955300820542]
最先端の生成画像とビデオモデルは、高次元入力をより効率的な潜在表現に圧縮するトークン化器に大きく依存している。
EO-VAEは,地球観測領域の基本的なトークン化機構として設計された多センサ変分オートエンコーダである。
論文 参考訳(メタデータ) (2026-02-12T17:09:14Z) - DeFM: Learning Foundation Representations from Depth for Robotics [49.77188649197404]
DeFMはロボットアプリケーションのための深度画像に基づいて訓練された自己教師型基礎モデルである。
DeFMは幾何学的および意味的な表現を学び、様々な環境、タスク、センサーに一般化する。
最先端の性能を達成し、シミュレーションから実環境への強力な一般化を実証する。
論文 参考訳(メタデータ) (2026-01-26T19:45:31Z) - The View From Space: Navigating Instrumentation Differences with EOFMs [0.0]
地球観測ファウンデーションモデル(EOFM)は、リモートセンシングやその他の地球観測データを大量に処理し、多くの重要な地球観測タスクに影響を及ぼすツールとして広く普及している。
出現するトレンドは、事前学習されたモデルの出力を「埋め込み」として利用し、類似性検索やコンテンツ固有のクエリといった一般的なタスクに使用する高次元データを要約する。
ほとんどのEOFMモデルは、データの単一のモダリティのみに基づいて訓練され、異なるモダリティにわたるマッチングバンドによって適用またはベンチマークされる。
多様なセンサーアーキテクチャが内部表現に与える影響は、既存の研究から明らかでない。
論文 参考訳(メタデータ) (2025-10-01T00:53:45Z) - Towards Scalable and Generalizable Earth Observation Data Mining via Foundation Model Composition [0.0]
リモートセンシングと一般ビジョンデータセットに事前訓練された基礎モデルを効果的に組み合わせて性能を向上させることができるかを検討する。
その結果、より小さな事前訓練モデルの特徴レベルのアンサンブルは、はるかに大きなモデルの性能に適合するか、超える可能性があることがわかった。
この研究は、よりコンパクトなモデルにアンサンブルの強度を伝達するために知識蒸留を適用する可能性を強調している。
論文 参考訳(メタデータ) (2025-06-25T07:02:42Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - DOFA-CLIP: Multimodal Vision-Language Foundation Models for Earth Observation [27.878058177228727]
本稿では,1つのトランスフォーマーバックボーンを通じてフレキシブルなスペクトル構成でEOモダリティに適応する視覚言語基盤モデルであるDOFA-CLIPを提案する。
提案手法では, 大規模EO画像テキストデータセットであるGeoLangBind-2Mの構築, マルチビジョン基盤モデルによるCLIP特徴の空間的認識を高める VECT と呼ばれる新しいトレーニング戦略, モータリティを意識した知識集約(MaKA)モジュールの構築を行った。
論文 参考訳(メタデータ) (2025-03-08T19:10:04Z) - Trajectory World Models for Heterogeneous Environments [67.27233466954814]
環境を横断するセンサーやアクチュエータの不均一性は、大規模な事前訓練された世界モデルを構築する上で大きな課題となる。
我々は80の環境から100万以上のトラジェクトリからなる統一データセットUniTrajを紹介した。
本稿では,様々なセンサやアクチュエータ情報を柔軟に処理し,環境ダイナミクスをコンテキスト内で捉えることのできる,新しいアーキテクチャであるTrajWorldを提案する。
論文 参考訳(メタデータ) (2025-02-03T13:59:08Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - PhysAug: A Physical-guided and Frequency-based Data Augmentation for Single-Domain Generalized Object Detection [4.592579302639643]
Single-Domain Generalized Object Detection (S-DGOD) は、オブジェクト検出器を利用することで、さまざまな未確認対象領域にわたる堅牢なパフォーマンスのために、単一のソースドメイン上でトレーニングすることを目的としている。
既存のS-DGODアプローチは、検出器の一般化能力を高めるために、視覚変換の合成を含むデータ拡張戦略に依存することが多い。
本稿では,S-DGODタスクの適応性を高めるために,新しい物理モデルに基づく非理想的撮像条件データ拡張法であるPhysAugを提案する。
論文 参考訳(メタデータ) (2024-12-16T14:18:01Z) - On Foundation Models for Dynamical Systems from Purely Synthetic Data [5.004576576202551]
基礎モデルは、様々な領域にわたる顕著な一般化、データ効率、ロバスト性を示してきた。
これらのモデルは自然言語処理やコンピュータビジョンなどの分野で利用できるが、力学系には存在しない。
合成データのみに基づくトランスフォーマーベース基礎モデルを事前学習することで,この問題に対処する。
本研究は, 一般化, データ効率, 堅牢性の観点から, スペシャリストモデルを上回った力学系の基礎モデルの実現可能性を示すものである。
論文 参考訳(メタデータ) (2024-11-30T08:34:10Z) - Foundation Models for Remote Sensing and Earth Observation: A Survey [101.77425018347557]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。
モチベーションと背景の概要から始まり、続いて基本概念が導入された。
我々はこれらのモデルを公開データセットと比較し、既存の課題について議論し、今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2024-10-22T01:08:21Z) - Multimodal Flare Forecasting with Deep Learning [0.2968738145616401]
色圏およびコロナUVおよびEUV放射の異なる波長での予測能力を比較するために、深層学習を採用している。
以上の結果から,EUVの波長は,視線磁図と同等以上の識別力が得られることが示唆された。
論文 参考訳(メタデータ) (2024-10-21T15:42:47Z) - Back to Bayesics: Uncovering Human Mobility Distributions and Anomalies with an Integrated Statistical and Neural Framework [14.899157568336731]
DeepBayesicは、ベイズ原理とディープニューラルネットワークを統合し、基盤となる分布をモデル化する新しいフレームワークである。
我々は,いくつかのモビリティデータセットに対するアプローチを評価し,最先端の異常検出手法の大幅な改善を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:02:06Z) - SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。
我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。
我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for
Enhanced Human Pose Estimation with Sparse Inertial Sensors [17.3834029178939]
本稿では,スパース慣性センサを用いた人間のポーズ推定手法を提案する。
さまざまなスケルトンフォーマットからの多様な実慣性モーションキャプチャデータを活用して、動作の多様性とモデル一般化を改善する。
このアプローチは、5つのパブリックデータセットにわたる最先端モデルよりも優れたパフォーマンスを示し、特にDIP-IMUデータセットのポーズエラーを19%削減する。
論文 参考訳(メタデータ) (2023-12-02T13:17:10Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。