Fugu-MT 論文翻訳(概要): Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning

論文の概要: Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning

arxiv url: http://arxiv.org/abs/2212.14532v3
Date: Thu, 6 Apr 2023 10:15:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-07 17:26:21.006449
Title: Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning
Title（参考訳）: Scale-MAE:マルチスケール地理空間表現学習のためのスケール対応マスケードオートエンコーダ
Authors: Colorado J. Reed, Ritwik Gupta, Shufan Li, Sarah Brockman, Christopher Funk, Brian Clipp, Kurt Keutzer, Salvatore Candido, Matt Uyttendaele, Trevor Darrell
Abstract要約: 本研究では,異なるスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。
参考スコア（独自算出の注目度）: 69.10901205025178
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data for scale-dependent domains, such as remote sensing. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $2.4 - 5.6\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $1.7$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.
Abstract（参考訳）: 大規模で事前訓練されたモデルは通常、様々な条件やスケールを模倣するために強化されたイメージで微調整され、その結果、様々なタスクに様々な空間スケールの画像で使用される。このようなモデルは、リモートセンシングのようなスケール依存領域のデータにおけるスケール固有の情報を見落とします。本稿では,事前学習プロセスを通じて,異なる既知のスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。 scale-maeは、画像がカバーする地球の面積が画像解像度ではなくvit位置符号化のスケールを決定する既知の入力スケールで入力画像をマスクすることにより、ネットワークを事前学習する。 Scale-MAEは、マスクされた画像を標準のViTバックボーンで符号化し、その後、帯域通過フィルタを介してマスクされた画像を復号し、低周波画像の低/高周波画像の再構成を行う。その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。 Scale-MAEは8つのリモートセンシングデータセットに対して平均2.4～5.6\%の非パラメトリックkNN分類の改善を達成し、様々な評価尺度に対するSpaceNetビルディングセグメンテーション転送タスクにおいて0.9$ mIoUから1.7$ mIoUの改善を達成している。

関連論文リスト

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders [74.72147962028265]
表現オートエンコーダ(RAE)は、ImageNet上で拡散モデリングにおいて明確な利点を示している。本稿では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
論文参考訳（メタデータ） (2026-01-22T18:58:16Z)
Multi-scale Unified Network for Image Classification [33.560003528712414]
CNNは、実世界のマルチスケール画像入力を扱う際に、性能と計算効率において顕著な課題に直面している。本稿では,マルチスケール,統一ネットワーク,スケール不変制約からなるMultiscale Unified Network(MUSN)を提案する。 MUSNは精度が44.53%向上し、マルチスケールシナリオではFLOPを7.01-16.13%減少させる。
論文参考訳（メタデータ） (2024-03-27T06:40:26Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
DeepMerge: Deep-Learning-Based Region-Merging for Image Segmentation [7.063322114865965]
本稿では,DeepMergeと呼ばれる深層学習に基づく領域マージ手法を提案する。これは、ディープラーニングを用いて類似性を学習し、RAGに隣接する類似のスーパーピクセルをマージする最初の方法である。 DeepMergeは最も高いF値(0.9550)と最も低い総誤差TE(0.0895)を達成し、異なるサイズのオブジェクトを正しく分割し、競合する全てのセグメンテーション法より優れている。
論文参考訳（メタデータ） (2023-05-31T12:27:58Z)
M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文参考訳（メタデータ） (2023-03-20T06:26:49Z)
Scale Attention for Learning Deep Face Representation: A Study Against Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。単発方式として、推論はマルチショット融合よりも効率的である。
論文参考訳（メタデータ） (2022-09-19T06:35:04Z)
Bidirectional Multi-scale Attention Networks for Semantic Segmentation of Oblique UAV Imagery [30.524771772192757]
本稿では、より適応的で効果的な特徴抽出のために、複数スケールの特徴を双方向に融合する新しい双方向多スケールアテンションネットワークを提案する。当モデルでは,平均和合(mIoU)スコア70.80%でSOTA(State-of-the-art)を達成した。
論文参考訳（メタデータ） (2021-02-05T11:02:15Z)
Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。 HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文参考訳（メタデータ） (2020-03-07T10:06:47Z)
Improving Few-shot Learning by Spatially-aware Matching and CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文参考訳（メタデータ） (2020-01-06T14:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。