論文の概要: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset
- arxiv url: http://arxiv.org/abs/2406.11933v1
- Date: Mon, 17 Jun 2024 15:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:36:26.343818
- Title: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset
- Title(参考訳): 大規模リモートセンシングデータセットを用いたマスクオートエンコーダのスケーリング
- Authors: Fengxiang Wang, Hongzhen Wang, Di Wang, Zonghao Guo, Zhenyu Zhong, Long Lan, Jing Zhang, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 本研究では,高効率なMIMトレーニングを実現するための大規模データセットである textbfRS-4M を紹介する。
本研究では,その意味的富度に基づいて選択されたパッチトークンのサブセットを動的にエンコードし,再構成する,効率的なMIM手法であるtextbfSelectiveMAEを提案する。
実験によると、SelectiveMAEはトレーニング効率を2.2-2.7倍に向上し、ベースラインMIMモデルの分類、検出、セグメンテーション性能を向上させる。
- 参考スコア(独自算出の注目度): 66.15872913664407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Image Modeling (MIM) has emerged as a pivotal approach for developing foundational visual models in the field of remote sensing (RS). However, current RS datasets are limited in volume and diversity, which significantly constrains the capacity of MIM methods to learn generalizable representations. In this study, we introduce \textbf{RS-4M}, a large-scale dataset designed to enable highly efficient MIM training on RS images. RS-4M comprises 4 million optical images encompassing abundant and fine-grained RS visual tasks, including object-level detection and pixel-level segmentation. Compared to natural images, RS images often contain massive redundant background pixels, which limits the training efficiency of the conventional MIM models. To address this, we propose an efficient MIM method, termed \textbf{SelectiveMAE}, which dynamically encodes and reconstructs a subset of patch tokens selected based on their semantic richness. SelectiveMAE roots in a progressive semantic token selection module, which evolves from reconstructing semantically analogical tokens to encoding complementary semantic dependencies. This approach transforms conventional MIM training into a progressive feature learning process, enabling SelectiveMAE to efficiently learn robust representations of RS images. Extensive experiments show that SelectiveMAE significantly boosts training efficiency by 2.2-2.7 times and enhances the classification, detection, and segmentation performance of the baseline MIM model.The dataset, source code, and trained models will be released.
- Abstract(参考訳): Masked Image Modeling (MIM)は、リモートセンシング(RS)分野における基礎的な視覚モデルを開発するための重要なアプローチとして登場した。
しかし、現在のRSデータセットはボリュームと多様性に制限されており、一般化可能な表現を学習するためのMIMメソッドの容量を著しく制限している。
本研究では,高効率なMIMトレーニングを実現するために設計された大規模データセットである \textbf{RS-4M} を紹介する。
RS-4Mは、オブジェクトレベルの検出やピクセルレベルのセグメンテーションを含む、リッチできめ細かなRS視覚タスクを含む400万の光学画像で構成されている。
自然画像と比較すると、RS画像には大量の背景画素が含まれており、従来のMIMモデルのトレーニング効率を制限している。
そこで本研究では,その意味的豊かさに基づいて選択されたパッチトークンのサブセットを動的にエンコードし,再構成する,効率的なMIM手法である「textbf{SelectiveMAE}」を提案する。
SelectiveMAEはプログレッシブなセマンティックトークン選択モジュールのルーツであり、セマンティックな類似トークンの再構成から相補的なセマンティック依存関係の符号化へと進化している。
このアプローチは、従来のMIMトレーニングをプログレッシブな特徴学習プロセスに変換し、SelectiveMAEがRS画像の堅牢な表現を効率的に学習できるようにする。
大規模な実験により、SelectiveMAEはトレーニング効率を2.2-2.7倍に向上し、ベースラインMIMモデルの分類、検出、セグメンテーション性能を向上させることが示されている。
関連論文リスト
- Learning De-Biased Representations for Remote-Sensing Imagery [27.218010145001312]
リモートセンシング(RS)画像は、特別な衛星を収集し、注釈を付けるのが困難である。
データ不足のため、スクラッチから大規模なRSモデルをトレーニングするのは現実的ではない。
提案するdebLoRAは,任意のLoRA変種で動作する汎用的なトレーニング手法である。
論文 参考訳(メタデータ) (2024-10-06T16:47:30Z) - A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder [26.81539884309151]
リモートセンシング(RS)データは、重要な空間情報、時間情報、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。
RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。
本研究では,異なる種類の画像と地理情報から固有の補完情報を活用し,事前学習期間中にマスク付きパッチを再構築するアンカー・アウェア・マスク付きオートエンコーダ手法(A$2-MAE)を提案する。
論文 参考訳(メタデータ) (2024-06-12T11:02:15Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - RingMo-lite: A Remote Sensing Multi-task Lightweight Network with
CNN-Transformer Hybrid Framework [15.273362355253779]
本稿では,CNN-Transformerハイブリッドフレームワークを用いたRSマルチタスク軽量ネットワークであるRingMo-liteを提案する。
提案したRingMo-liteは、様々なRS画像解釈タスクにおいて60%以上のパラメータを削減し、ほとんどのシーンで平均精度は2%以下に低下し、類似サイズのモデルと比較してSOTA性能が向上する。
論文 参考訳(メタデータ) (2023-09-16T14:15:59Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote
Sensing Image Retrieval [21.05804942940532]
クロスモーダルなテキスト画像検索は、フレキシブルな入力と効率的なクエリの利点により、広く注目を集めている。
RSマルチモーダル検索タスクにおけるマルチスケール不足とターゲット冗長性の問題に対処するため、新しい非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を考案した。
本モデルは,マルチスケールな特徴入力に適応し,マルチソース検索手法を好んで,冗長な特徴を動的にフィルタすることができる。
論文 参考訳(メタデータ) (2022-04-21T03:53:19Z) - DML-GANR: Deep Metric Learning With Generative Adversarial Network
Regularization for High Spatial Resolution Remote Sensing Image Retrieval [9.423185775609426]
我々は,HSR-RSI検索のためのDML-GANR(Generative Adversarial Network regularization)を用いたディープメトリック学習手法を開発した。
3つのデータセットの実験結果から,HSR-RSI検索における最先端技術よりもDML-GANRの方が優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-07T02:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。