論文の概要: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation
- arxiv url: http://arxiv.org/abs/2403.15356v2
- Date: Fri, 7 Jun 2024 10:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-10 19:28:06.769529
- Title: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation
- Title(参考訳): ニューラル・プラスティック・インスパイアされた地球観測のための多モード基礎モデル
- Authors: Zhitong Xiong, Yi Wang, Fahong Zhang, Adam J. Stewart, Joëlle Hanna, Damian Borth, Ioannis Papoutsis, Bertrand Le Saux, Gustau Camps-Valls, Xiao Xiang Zhu,
- Abstract要約: 我々の新しいアプローチは、脳科学における神経可塑性の概念を活用する、ダイナミックワンフォーオール(DOFA)モデルを導入している。
このダイナミックなハイパーネットワークは、異なる波長に調整され、5つのセンサーのデータに基づいて1つの多目的トランスフォーマーを共同で訓練し、12の異なる地球観測タスクを遂行することを可能にする。
- 参考スコア(独自算出の注目度): 48.66623377464203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of foundation models has revolutionized our ability to interpret the Earth's surface using satellite observational data. Traditional models have been siloed, tailored to specific sensors or data types like optical, radar, and hyperspectral, each with its own unique characteristics. This specialization hinders the potential for a holistic analysis that could benefit from the combined strengths of these diverse data sources. Our novel approach introduces the Dynamic One-For-All (DOFA) model, leveraging the concept of neural plasticity in brain science to integrate various data modalities into a single framework adaptively. This dynamic hypernetwork, adjusting to different wavelengths, enables a single versatile Transformer jointly trained on data from five sensors to excel across 12 distinct Earth observation tasks, including sensors never seen during pretraining. DOFA's innovative design offers a promising leap towards more accurate, efficient, and unified Earth observation analysis, showcasing remarkable adaptability and performance in harnessing the potential of multimodal Earth observation data.
- Abstract(参考訳): 基礎モデルの開発は、衛星観測データを用いて地球表面を解釈する我々の能力に革命をもたらした。
従来のモデルはサイロ化され、特定のセンサーや光学、レーダー、ハイパースペクトルといったデータタイプに合わせて調整され、それぞれ独自の特性を持つ。
この特殊化は、これらの多様なデータソースの組合せの強みから恩恵を受けることができる全体論的分析の可能性を妨げている。
我々の新しいアプローチでは、脳科学における神経可塑性の概念を活用して、様々なデータモダリティを適応的に単一のフレームワークに統合する、ダイナミックワンフォーオール(DOFA)モデルを導入しています。
このダイナミックなハイパーネットワークは、異なる波長に調整されるため、5つのセンサーのデータに基づいて1つの多目的トランスフォーマーを共同で訓練し、事前トレーニング中に見たことのないセンサーを含む12の異なる地球観測タスクを遂行することができる。
DOFAの革新的な設計は、より正確で効率的で統一された地球観測分析に向けて、有望な飛躍をもたらし、マルチモーダル地球観測データの可能性を活用するための顕著な適応性と性能を示している。
関連論文リスト
- EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data [19.18955300820542]
最先端の生成画像とビデオモデルは、高次元入力をより効率的な潜在表現に圧縮するトークン化器に大きく依存している。
EO-VAEは,地球観測領域の基本的なトークン化機構として設計された多センサ変分オートエンコーダである。
論文 参考訳(メタデータ) (2026-02-12T17:09:14Z) - DeFM: Learning Foundation Representations from Depth for Robotics [49.77188649197404]
DeFMはロボットアプリケーションのための深度画像に基づいて訓練された自己教師型基礎モデルである。
DeFMは幾何学的および意味的な表現を学び、様々な環境、タスク、センサーに一般化する。
最先端の性能を達成し、シミュレーションから実環境への強力な一般化を実証する。
論文 参考訳(メタデータ) (2026-01-26T19:45:31Z) - The View From Space: Navigating Instrumentation Differences with EOFMs [0.0]
地球観測ファウンデーションモデル(EOFM)は、リモートセンシングやその他の地球観測データを大量に処理し、多くの重要な地球観測タスクに影響を及ぼすツールとして広く普及している。
出現するトレンドは、事前学習されたモデルの出力を「埋め込み」として利用し、類似性検索やコンテンツ固有のクエリといった一般的なタスクに使用する高次元データを要約する。
ほとんどのEOFMモデルは、データの単一のモダリティのみに基づいて訓練され、異なるモダリティにわたるマッチングバンドによって適用またはベンチマークされる。
多様なセンサーアーキテクチャが内部表現に与える影響は、既存の研究から明らかでない。
論文 参考訳(メタデータ) (2025-10-01T00:53:45Z) - Towards Scalable and Generalizable Earth Observation Data Mining via Foundation Model Composition [0.0]
リモートセンシングと一般ビジョンデータセットに事前訓練された基礎モデルを効果的に組み合わせて性能を向上させることができるかを検討する。
その結果、より小さな事前訓練モデルの特徴レベルのアンサンブルは、はるかに大きなモデルの性能に適合するか、超える可能性があることがわかった。
この研究は、よりコンパクトなモデルにアンサンブルの強度を伝達するために知識蒸留を適用する可能性を強調している。
論文 参考訳(メタデータ) (2025-06-25T07:02:42Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - DOFA-CLIP: Multimodal Vision-Language Foundation Models for Earth Observation [27.878058177228727]
本稿では,1つのトランスフォーマーバックボーンを通じてフレキシブルなスペクトル構成でEOモダリティに適応する視覚言語基盤モデルであるDOFA-CLIPを提案する。
提案手法では, 大規模EO画像テキストデータセットであるGeoLangBind-2Mの構築, マルチビジョン基盤モデルによるCLIP特徴の空間的認識を高める VECT と呼ばれる新しいトレーニング戦略, モータリティを意識した知識集約(MaKA)モジュールの構築を行った。
論文 参考訳(メタデータ) (2025-03-08T19:10:04Z) - Trajectory World Models for Heterogeneous Environments [67.27233466954814]
環境を横断するセンサーやアクチュエータの不均一性は、大規模な事前訓練された世界モデルを構築する上で大きな課題となる。
我々は80の環境から100万以上のトラジェクトリからなる統一データセットUniTrajを紹介した。
本稿では,様々なセンサやアクチュエータ情報を柔軟に処理し,環境ダイナミクスをコンテキスト内で捉えることのできる,新しいアーキテクチャであるTrajWorldを提案する。
論文 参考訳(メタデータ) (2025-02-03T13:59:08Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - PhysAug: A Physical-guided and Frequency-based Data Augmentation for Single-Domain Generalized Object Detection [4.592579302639643]
Single-Domain Generalized Object Detection (S-DGOD) は、オブジェクト検出器を利用することで、さまざまな未確認対象領域にわたる堅牢なパフォーマンスのために、単一のソースドメイン上でトレーニングすることを目的としている。
既存のS-DGODアプローチは、検出器の一般化能力を高めるために、視覚変換の合成を含むデータ拡張戦略に依存することが多い。
本稿では,S-DGODタスクの適応性を高めるために,新しい物理モデルに基づく非理想的撮像条件データ拡張法であるPhysAugを提案する。
論文 参考訳(メタデータ) (2024-12-16T14:18:01Z) - On Foundation Models for Dynamical Systems from Purely Synthetic Data [5.004576576202551]
基礎モデルは、様々な領域にわたる顕著な一般化、データ効率、ロバスト性を示してきた。
これらのモデルは自然言語処理やコンピュータビジョンなどの分野で利用できるが、力学系には存在しない。
合成データのみに基づくトランスフォーマーベース基礎モデルを事前学習することで,この問題に対処する。
本研究は, 一般化, データ効率, 堅牢性の観点から, スペシャリストモデルを上回った力学系の基礎モデルの実現可能性を示すものである。
論文 参考訳(メタデータ) (2024-11-30T08:34:10Z) - Foundation Models for Remote Sensing and Earth Observation: A Survey [101.77425018347557]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。
モチベーションと背景の概要から始まり、続いて基本概念が導入された。
我々はこれらのモデルを公開データセットと比較し、既存の課題について議論し、今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2024-10-22T01:08:21Z) - Multimodal Flare Forecasting with Deep Learning [0.2968738145616401]
色圏およびコロナUVおよびEUV放射の異なる波長での予測能力を比較するために、深層学習を採用している。
以上の結果から,EUVの波長は,視線磁図と同等以上の識別力が得られることが示唆された。
論文 参考訳(メタデータ) (2024-10-21T15:42:47Z) - Back to Bayesics: Uncovering Human Mobility Distributions and Anomalies with an Integrated Statistical and Neural Framework [14.899157568336731]
DeepBayesicは、ベイズ原理とディープニューラルネットワークを統合し、基盤となる分布をモデル化する新しいフレームワークである。
我々は,いくつかのモビリティデータセットに対するアプローチを評価し,最先端の異常検出手法の大幅な改善を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:02:06Z) - SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。
我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。
我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for
Enhanced Human Pose Estimation with Sparse Inertial Sensors [17.3834029178939]
本稿では,スパース慣性センサを用いた人間のポーズ推定手法を提案する。
さまざまなスケルトンフォーマットからの多様な実慣性モーションキャプチャデータを活用して、動作の多様性とモデル一般化を改善する。
このアプローチは、5つのパブリックデータセットにわたる最先端モデルよりも優れたパフォーマンスを示し、特にDIP-IMUデータセットのポーズエラーを19%削減する。
論文 参考訳(メタデータ) (2023-12-02T13:17:10Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。