論文の概要: Dual-Domain Masked Image Modeling: A Self-Supervised Pretraining Strategy Using Spatial and Frequency Domain Masking for Hyperspectral Data
- arxiv url: http://arxiv.org/abs/2505.03220v1
- Date: Tue, 06 May 2025 06:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.236373
- Title: Dual-Domain Masked Image Modeling: A Self-Supervised Pretraining Strategy Using Spatial and Frequency Domain Masking for Hyperspectral Data
- Title(参考訳): Dual-Domain Masked Image Modeling: 空間及び周波数領域マスキングを用いた自己監督型事前学習戦略
- Authors: Shaheer Mohamed, Tharindu Fernando, Sridha Sridharan, Peyman Moghadam, Clinton Fookes,
- Abstract要約: 本稿では,ラベルなしデータの大部分を利用するハイパースペクトルデータに対する自己教師付き事前学習戦略を提案する。
本稿では,空間領域と周波数領域の両方で動作する新しい二重ドメインマスキング機構を提案する。
提案手法を3つの公開HSI分類ベンチマークで評価し,現状の性能を実証した。
- 参考スコア(独自算出の注目度): 35.34526230299484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperspectral images (HSIs) capture rich spectral signatures that reveal vital material properties, offering broad applicability across various domains. However, the scarcity of labeled HSI data limits the full potential of deep learning, especially for transformer-based architectures that require large-scale training. To address this constraint, we propose Spatial-Frequency Masked Image Modeling (SFMIM), a self-supervised pretraining strategy for hyperspectral data that utilizes the large portion of unlabeled data. Our method introduces a novel dual-domain masking mechanism that operates in both spatial and frequency domains. The input HSI cube is initially divided into non-overlapping patches along the spatial dimension, with each patch comprising the entire spectrum of its corresponding spatial location. In spatial masking, we randomly mask selected patches and train the model to reconstruct the masked inputs using the visible patches. Concurrently, in frequency masking, we remove portions of the frequency components of the input spectra and predict the missing frequencies. By learning to reconstruct these masked components, the transformer-based encoder captures higher-order spectral-spatial correlations. We evaluate our approach on three publicly available HSI classification benchmarks and demonstrate that it achieves state-of-the-art performance. Notably, our model shows rapid convergence during fine-tuning, highlighting the efficiency of our pretraining strategy.
- Abstract(参考訳): ハイパースペクトル画像(HSI)は、重要な物質特性を示す豊富なスペクトルシグネチャをキャプチャし、様々な領域に広い適用性を提供する。
しかし、ラベル付きHSIデータの不足は、特に大規模なトレーニングを必要とするトランスフォーマーベースのアーキテクチャにおいて、ディープラーニングの潜在能力を制限している。
この制約に対処するために、未ラベルデータの大部分を利用するハイパースペクトルデータに対する自己教師付き事前学習戦略である空間周波数マスケッド画像モデリング(SFMIM)を提案する。
本稿では,空間領域と周波数領域の両方で動作する新しい二重ドメインマスキング機構を提案する。
入力HSI立方体は最初、空間次元に沿って非重なり合うパッチに分割され、各パッチは対応する空間位置のスペクトル全体を構成する。
空間マスキングでは、選択したパッチをランダムにマスキングし、可視パッチを用いてマスクされた入力を再構築するようモデルを訓練する。
同時に、周波数マスキングにおいて、入力スペクトルの周波数成分の一部を除去し、欠落周波数を予測する。
これらのマスクされたコンポーネントを再構築することを学ぶことで、トランスフォーマーベースのエンコーダは高次のスペクトル-空間相関をキャプチャする。
提案手法を3つの公開HSI分類ベンチマークで評価し,現状の性能を実証した。
特に,本モデルは微調整中に急速に収束し,事前学習戦略の効率化を図っている。
関連論文リスト
- SpectralMamba: Efficient Mamba for Hyperspectral Image Classification [39.18999103115206]
リカレントニューラルネットワークとトランスフォーマーは、ハイパースペクトル(HS)イメージングにおけるほとんどの応用を支配している。
我々は、HS画像分類のための効率的なディープラーニングフレームワークを組み込んだ新しい状態空間モデルであるSpectralMambaを提案する。
SpectralMambaは、パフォーマンスと効率の両面から、驚くほど有望な勝利を生み出している。
論文 参考訳(メタデータ) (2024-04-12T14:12:03Z) - SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote
Sensing Image Classification [35.52272615695294]
本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付きオートエンコーダ(SS-MAE)を提案する。
我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。
訓練段階における局所的な特徴を補完するため、特徴抽出のために2つの軽量CNNを追加します。
論文 参考訳(メタデータ) (2023-11-08T03:54:44Z) - S^2-Transformer for Mask-Aware Hyperspectral Image Reconstruction [59.39343894089959]
トランスフォーマー再構成バックエンドを備えたスナップショット圧縮撮像器(CASSI)は、高忠実度センシング性能を示す。
空間的およびスペクトル的アテンションデザインは ハイパースペクトルモデリングの限界を示します
パラレルアテンション設計とマスク認識学習戦略により実装された空間スペクトル(S2-)変換器を提案する。
論文 参考訳(メタデータ) (2022-09-24T19:26:46Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image
Reconstruction [127.20208645280438]
ハイパースペクトル画像(HSI)再構成は、2次元計測から3次元空間スペクトル信号を復元することを目的としている。
スペクトル間相互作用のモデル化は、HSI再構成に有用である。
Mask-guided Spectral-wise Transformer (MST) は,HSI再構成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-15T16:59:48Z) - Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in
Frequency Domain [88.7339322596758]
本論文では,空間画像と位相スペクトルを組み合わせ,顔の偽造のアップサンプリング成果をキャプチャするSPSL(Spatial-Phase Shallow Learning)法を提案する。
SPSLは、クロスデータセット評価における最先端性能とマルチクラス分類を実現し、単一データセット評価において同等の結果を得ることができる。
論文 参考訳(メタデータ) (2021-03-02T16:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。