Fugu-MT 論文翻訳(概要): OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset

論文の概要: OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset

arxiv url: http://arxiv.org/abs/2406.11933v3
Date: Fri, 30 Aug 2024 15:08:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 10:56:31.651494
Title: OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset
Title（参考訳）: OpticalRS-4M:大規模リモートセンシングデータセットを用いた効率的なマスク付きオートエンコーダ学習
Authors: Fengxiang Wang, Hongzhen Wang, Di Wang, Zonghao Guo, Zhenyu Zhong, Long Lan, Jing Zhang, Zhiyuan Liu, Maosong Sun,
Abstract要約: 本稿では、大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。我々は、公開可能なRSデータセットを収集し、排除、スライシング、復号化によってそれらを処理することで、OptoRS-4Mという高品質なデータセットをキュレートした。実験により,OCR-4Mは分類,検出,セグメンテーション性能を著しく向上し,SelectiveMAEは2回以上のトレーニング効率を向上させることが示された。
参考スコア（独自算出の注目度）: 66.15872913664407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked Image Modeling (MIM) has become an essential method for building foundational visual models in remote sensing (RS). However, the limitations in size and diversity of existing RS datasets restrict the ability of MIM methods to learn generalizable representations. Additionally, conventional MIM techniques, which require reconstructing all tokens, introduce unnecessary computational overhead. To address these issues, we present a new pre-training pipeline for RS models, featuring the creation of a large-scale RS dataset and an efficient MIM approach. We curated a high-quality dataset named OpticalRS-4M by collecting publicly available RS datasets and processing them through exclusion, slicing, and deduplication. OpticalRS-4M comprises 4 million optical images covering various RS tasks, such as object detection and pixel segmentation. To enhance efficiency, we propose SelectiveMAE, a pre-training method that dynamically encodes and reconstructs semantically rich patch tokens, thereby reducing the inefficiencies of traditional MIM models caused by redundant background pixels in RS images. Extensive experiments demonstrate that OpticalRS-4M significantly improves classification, detection, and segmentation performance, while SelectiveMAE increases training efficiency over 2 times. This highlights the effectiveness and scalability of our pipeline in developing RS foundational models.
Abstract（参考訳）: Masked Image Modeling (MIM) は、リモートセンシング(RS)における基礎的な視覚モデル構築に欠かせない手法となっている。しかし、既存のRSデータセットのサイズと多様性の制限は、MIM法が一般化可能な表現を学習する能力を制限する。さらに、全てのトークンを再構築する必要がある従来のMIM技術は、不要な計算オーバーヘッドを導入している。これらの問題に対処するため、我々は大規模なRSデータセットの作成と効率的なMIMアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。我々は、公開可能なRSデータセットを収集し、排除、スライシング、復号化によってそれらを処理することで、OptoRS-4Mという高品質なデータセットをキュレートした。光RS-4Mは、オブジェクト検出やピクセルセグメンテーションなど、様々なRSタスクをカバーする400万の光学画像で構成されている。効率を向上させるために,SelectiveMAEを提案する。SelectiveMAEは,意味的にリッチなパッチトークンを動的にエンコードし,再構成することで,RS画像の冗長な背景画素に起因する従来のMIMモデルの非効率性を低減できる。広汎な実験により、光学RS-4Mは分類、検出、セグメンテーション性能を著しく改善し、セレクティブMAEは2倍のトレーニング効率を向上することが示された。これは、RS基盤モデルの開発におけるパイプラインの有効性とスケーラビリティを強調します。

関連論文リスト

Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文参考訳（メタデータ） (2025-11-26T10:55:07Z)
Wavelet-Driven Masked Image Modeling: A Path to Efficient Visual Representation [27.576174611043367]
Masked Image Modeling (MIM)は、下流タスクに適したスケーラブルな視覚表現を学習する能力のおかげで、自己教師付き学習において大きな注目を集めている。しかし、画像は本質的に冗長な情報を含んでいるため、画素ベースのMIM再構成プロセスはテクスチャなどの細部に過度に集中し、不要なトレーニング時間を延ばすことになる。本研究では,MIMの学習過程を高速化するために,ウェーブレット変換を効率的な表現学習のツールとして活用する。
論文参考訳（メタデータ） (2025-03-02T08:11:26Z)
Cross-Modal Mapping: Mitigating the Modality Gap for Few-Shot Image Classification [13.238769012534922]
画像分類のための新しいクロスモーダルマッピング(CMM)手法を提案する。 CMMは、画像特徴とテキスト特徴空間を線形変換により整列する。 11のベンチマークデータセットでは、Top-1の平均精度が1.06%向上している。
論文参考訳（メタデータ） (2024-12-28T10:40:21Z)
Learning De-Biased Representations for Remote-Sensing Imagery [27.218010145001312]
リモートセンシング(RS)画像は、特別な衛星を収集し、注釈を付けるのが困難である。データ不足のため、スクラッチから大規模なRSモデルをトレーニングするのは現実的ではない。提案するdebLoRAは,任意のLoRA変種で動作する汎用的なトレーニング手法である。
論文参考訳（メタデータ） (2024-10-06T16:47:30Z)
Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
Discriminative Hamiltonian Variational Autoencoder for Accurate Tumor Segmentation in Data-Scarce Regimes [2.8498944632323755]
医用画像分割のためのエンドツーエンドハイブリッドアーキテクチャを提案する。ハミルトン変分オートエンコーダ(HVAE)と識別正則化を用いて生成画像の品質を向上する。我々のアーキテクチャはスライス・バイ・スライス・ベースで3Dボリュームを分割し、リッチな拡張データセットをカプセル化する。
論文参考訳（メタデータ） (2024-06-17T15:42:08Z)
A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder [26.81539884309151]
リモートセンシング(RS)データは、重要な空間情報、時間情報、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。 RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。本研究では,異なる種類の画像と地理情報から固有の補完情報を活用し,事前学習期間中にマスク付きパッチを再構築するアンカー・アウェア・マスク付きオートエンコーダ手法(A$2-MAE)を提案する。
論文参考訳（メタデータ） (2024-06-12T11:02:15Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote Sensing Image Classification [35.52272615695294]
本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付きオートエンコーダ(SS-MAE)を提案する。我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。訓練段階における局所的な特徴を補完するため、特徴抽出のために2つの軽量CNNを追加します。
論文参考訳（メタデータ） (2023-11-08T03:54:44Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。 IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文参考訳（メタデータ） (2023-09-26T08:32:55Z)
RingMo-lite: A Remote Sensing Multi-task Lightweight Network with CNN-Transformer Hybrid Framework [15.273362355253779]
本稿では,CNN-Transformerハイブリッドフレームワークを用いたRSマルチタスク軽量ネットワークであるRingMo-liteを提案する。提案したRingMo-liteは、様々なRS画像解釈タスクにおいて60%以上のパラメータを削減し、ほとんどのシーンで平均精度は2%以下に低下し、類似サイズのモデルと比較してSOTA性能が向上する。
論文参考訳（メタデータ） (2023-09-16T14:15:59Z)
Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文参考訳（メタデータ） (2023-08-01T03:44:56Z)
Disruptive Autoencoders: Leveraging Low-level features for 3D Medical Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-07-31T17:59:42Z)
PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。本稿では,画素再構成の観点からMIMの基本解析を行う。我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文参考訳（メタデータ） (2023-03-04T13:38:51Z)
Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval [21.05804942940532]
クロスモーダルなテキスト画像検索は、フレキシブルな入力と効率的なクエリの利点により、広く注目を集めている。 RSマルチモーダル検索タスクにおけるマルチスケール不足とターゲット冗長性の問題に対処するため、新しい非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を考案した。本モデルは,マルチスケールな特徴入力に適応し,マルチソース検索手法を好んで,冗長な特徴を動的にフィルタすることができる。
論文参考訳（メタデータ） (2022-04-21T03:53:19Z)
DML-GANR: Deep Metric Learning With Generative Adversarial Network Regularization for High Spatial Resolution Remote Sensing Image Retrieval [9.423185775609426]
我々は,HSR-RSI検索のためのDML-GANR(Generative Adversarial Network regularization)を用いたディープメトリック学習手法を開発した。 3つのデータセットの実験結果から,HSR-RSI検索における最先端技術よりもDML-GANRの方が優れた性能を示した。
論文参考訳（メタデータ） (2020-10-07T02:26:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。