論文の概要: Cross-Scale MAE: A Tale of Multi-Scale Exploitation in Remote Sensing
- arxiv url: http://arxiv.org/abs/2401.15855v1
- Date: Mon, 29 Jan 2024 03:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:15:54.810814
- Title: Cross-Scale MAE: A Tale of Multi-Scale Exploitation in Remote Sensing
- Title(参考訳): クロススケールMAE:リモートセンシングにおけるマルチスケール爆発の物語
- Authors: Maofeng Tang, Andrei Cozma, Konstantinos Georgiou, Hairong Qi
- Abstract要約: 我々は,Masked Auto-Encoder (MAE)をベースとした自己教師型モデルであるCross-Scale MAEを提案する。
実験により,Cross-Scale MAEは標準的なMAEと他の最先端のリモートセンシングMAE法と比較して優れた性能を示した。
- 参考スコア(独自算出の注目度): 5.325585142755542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing images present unique challenges to image analysis due to the
extensive geographic coverage, hardware limitations, and misaligned multi-scale
images. This paper revisits the classical multi-scale representation learning
problem but under the general framework of self-supervised learning for remote
sensing image understanding. We present Cross-Scale MAE, a self-supervised
model built upon the Masked Auto-Encoder (MAE).During pre-training, Cross-Scale
MAE employs scale augmentation techniques and enforces cross-scale consistency
constraints through both contrastive and generative losses to ensure consistent
and meaningful representations well-suited for a wide range of downstream
tasks. Further, our implementation leverages the xFormers library to accelerate
network pre-training on a single GPU while maintaining the quality of learned
representations. Experimental evaluations demonstrate that Cross-Scale MAE
exhibits superior performance compared to standard MAE and other
state-of-the-art remote sensing MAE methods.
- Abstract(参考訳): リモートセンシング画像は、地理的な範囲、ハードウェアの制限、マルチスケール画像のミスアライメントなどにより、画像解析に特有の課題がある。
本稿では,リモートセンシング画像理解のための自己教師あり学習の一般的な枠組みの下で,古典的多スケール表現学習問題を再考する。
本稿では,Masked Auto-Encoder (MAE) をベースとした自己教師型モデルであるCross-Scale MAEを提案する。
事前トレーニング中、クロススケールMAEはスケール拡張技術を採用し、コントラストと生成的損失の両方を通じて、広範囲の下流タスクに適した一貫性と意味のある表現を保証するために、クロススケール一貫性の制約を強制する。
さらに,xformersライブラリを活用して,学習表現の品質を維持しながら,単一のgpu上でのネットワーク事前トレーニングを高速化する。
実験により,Cross-Scale MAEは標準的なMAEや他の最先端のリモートセンシング手法と比較して優れた性能を示した。
関連論文リスト
- RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Feature Guided Masked Autoencoder for Self-supervised Learning in Remote
Sensing [16.683132793313693]
Masked AutoEncoder (MAE) はリモートセンシングにおける視覚トランスフォーマーの事前訓練に広く注目を集めている。
本研究では,多スペクトル画像に対する向き付けされた粒度(HOG)と正規化差分指標(NDI)の組合せを再構成し,SAR画像のHOGを再構成する特徴誘導マスク付きオートエンコーダ(FG-MAE)を提案する。
論文 参考訳(メタデータ) (2023-10-28T09:43:13Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial
Representation Learning [55.762840052788945]
本研究では,異なるスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。
その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。
論文 参考訳(メタデータ) (2022-12-30T03:15:34Z) - Multi-Spectral Image Classification with Ultra-Lean Complex-Valued
Models [28.798100220715686]
マルチスペクトル画像は、材料によって示される異なるスペクトルシグネチャによってリモートセンシングに有用である。
複素値コドメイン対称モデルを用いて実値MSI画像の分類を行う。
我々の研究は、実数値MSIデータにおける複素数値深層学習の価値を初めて示すものである。
論文 参考訳(メタデータ) (2022-11-21T19:01:53Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。