論文の概要: Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data
- arxiv url: http://arxiv.org/abs/2503.12843v3
- Date: Wed, 26 Mar 2025 16:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:49.065718
- Title: Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data
- Title(参考訳): マルチモーダル・ハイパースペクトル測地データのためのスケーラブルな基礎モデルに向けて
- Authors: Haozhe Si, Yuxuan Wan, Minh Do, Deepak Vasisht, Han Zhao, Hendrik F. Hamann,
- Abstract要約: 本稿では,3つのイノベーションを取り入れた高効率空間スペクトル変換器について紹介する。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により, 提案手法は, 最先端のマルチモーダル地空間基盤モデルと競合する性能を示す。
- 参考スコア(独自算出の注目度): 14.104497777255137
- License:
- Abstract: Geospatial raster data, such as that collected by satellite-based imaging systems at different times and spectral bands, hold immense potential for enabling a wide range of high-impact applications. This potential stems from the rich information that is spatially and temporally contextualized across multiple channels and sensing modalities. Recent work has adapted existing self-supervised learning approaches for such geospatial data. However, they fall short of scalable model architectures, leading to inflexibility and computational inefficiencies when faced with an increasing number of channels and modalities. To address these limitations, we introduce Low-rank Efficient Spatial-Spectral Vision Transformer with three key innovations: i) the LESS Attention Block that approximates high-dimensional spatial-spectral attention through Kronecker's product of the low-dimensional spatial and spectral attention components; ii) the Continuous Positional-Channel Embedding Layer that preserves both the continuity and physical characteristics of each spatial-spectral patch; and iii) the Perception Field Mask that exploits local spatial dependencies by constraining attention to neighboring patches. To evaluate the proposed innovations, we construct GFM-Bench, which serves as a comprehensive benchmark for such geospatial raster data. We pretrain LESS ViT using a Hyperspectral Masked Autoencoder framework with integrated positional and channel masking strategies. Experimental results demonstrate that our proposed method achieves competitive performance against state-of-the-art multi-modal geospatial foundation models while outperforming them on cross-satellite generalization tasks with higher computational efficiency. The flexibility and extensibility of our framework make it a promising direction for future geospatial data analysis tasks that involve a wide range of modalities and channels.
- Abstract(参考訳): 衛星ベースのイメージングシステムやスペクトル帯で収集された地球空間ラスターデータは、広範囲の高影響の応用を可能にする大きな可能性を秘めている。
このポテンシャルは、複数のチャンネルにまたがって空間的・時間的に文脈化され、モダリティを感知する豊富な情報に由来する。
最近の研究は、そのような地理空間データに既存の自己教師付き学習アプローチを適用している。
しかし、スケーラブルなモデルアーキテクチャには欠けており、チャンネル数やモダリティの増加に直面した場合、柔軟性と計算の非効率性が生じる。
これらの制限に対処するために、我々は3つの重要な革新を伴って、低ランクの空間スペクトル型視覚変換器を紹介した。
一 クローネッカーの低次元空間的及びスペクトル的注意成分による高次元空間的注意を近似するLESS注意ブロック
二 各空間スペクトルパッチの連続性と物理的特性を両立させる連続的位置-チャネル埋め込み層
三 近隣のパッチに注意を拘束することにより、局所的な空間的依存関係を利用する知覚場マスク。
提案手法を評価するため, 地空間ラスタデータの総合的なベンチマークである GFM-Bench を構築した。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により,提案手法は,高計算効率のクロスサテライト一般化タスクにおいて,最先端のマルチモーダルな地理空間基盤モデルに対して性能を向上することを示した。
我々のフレームワークの柔軟性と拡張性は、幅広いモダリティやチャネルを含む将来的な地理空間データ分析タスクに有望な方向性をもたらす。
関連論文リスト
- HSLiNets: Hyperspectral Image and LiDAR Data Fusion Using Efficient Dual Non-Linear Feature Learning Networks [7.06787067270941]
新しい線形特徴空間におけるハイパースペクトルイメージング(HSI)とLiDARデータの統合は、HSIに固有の高次元性と冗長性に起因する課題に対する有望な解決策を提供する。
本研究では、双方向逆畳み込み畳み込みニューラルネットワーク(CNN)経路と特殊空間解析ブロックを併用した、二重線型融合空間フレームワークを提案する。
提案手法は,データ処理や分類精度を向上するだけでなく,トランスフォーマーなどの先進モデルに係わる計算負担を軽減する。
論文 参考訳(メタデータ) (2024-11-30T01:08:08Z) - GraphMamba: An Efficient Graph Structure Learning Vision Mamba for Hyperspectral Image Classification [19.740333867168108]
GraphMambaは、深部空間スペクトル情報マイニングを実現するための効率的なグラフ構造学習ビジョンMamba分類フレームワークである。
GraphMambaのコアコンポーネントには、計算効率を改善するHyperMambaモジュールと、適応的な空間コンテキスト認識のためのSpectralGCNモジュールが含まれている。
論文 参考訳(メタデータ) (2024-07-11T07:56:08Z) - HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model [88.13261547704444]
Hyper SIGMAは、HSI解釈のためのビジョントランスフォーマーベースの基礎モデルである。
特別に設計されたスペクトル拡張モジュールを使用して、空間的特徴とスペクトル的特徴を統合する。
スケーラビリティ、堅牢性、クロスモーダル転送能力、実世界の適用性において大きなメリットがある。
論文 参考訳(メタデータ) (2024-06-17T13:22:58Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Hyperspectral Image Reconstruction via Combinatorial Embedding of
Cross-Channel Spatio-Spectral Clues [6.580484964018551]
既存の学習に基づくハイパースペクトル再構成手法は、ハイパースペクトルバンド間の情報を完全に活用する際の限界を示す。
それぞれの超スペクトル空間における相互依存性について検討する。
これらの組み込み機能は、チャネル間相関をクエリすることで、完全に活用することができる。
論文 参考訳(メタデータ) (2023-12-18T11:37:19Z) - Automated Spatio-Temporal Graph Contrastive Learning [18.245433428868775]
パラメータ化コントラストビュージェネレータを用いた時間自動拡張方式を開発した。
AutoSTは多視点セマンティクスをよく保存した異種グラフに適応することができる。
いくつかの実世界のデータセットで3つのダウンストリーム時間的マイニングタスクの実験は、大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2023-05-06T03:52:33Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - On the spatial attention in Spatio-Temporal Graph Convolutional Networks
for skeleton-based human action recognition [97.14064057840089]
カルチャーネットワーク(GCN)は、スケルトンをグラフとしてモデル化することで、スケルトンに基づく人間の行動認識の性能を約束する。
最近提案されたG時間に基づく手法のほとんどは、ネットワークの各層におけるグラフ構造を学習することで、性能を向上させる。
論文 参考訳(メタデータ) (2020-11-07T19:03:04Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。