論文の概要: An Empirical Study of Remote Sensing Pretraining
- arxiv url: http://arxiv.org/abs/2204.02825v1
- Date: Wed, 6 Apr 2022 13:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:02:19.428805
- Title: An Empirical Study of Remote Sensing Pretraining
- Title(参考訳): リモートセンシング事前学習の実証的研究
- Authors: Di Wang, Jing Zhang, Bo Du, Gui-Song Xia and Dacheng Tao
- Abstract要約: リモートセンシング事前訓練(RSP)の実証的研究を行った。
我々は、現在MillionAIDまで、最大のリモートセンシングシーン認識データセットの助けを借りて、ゼロから異なるネットワークをトレーニングする。
ImageNet Pretraining (IMP) と RSP がシーン認識,セマンティックセグメンテーション,オブジェクト検出,変更検出など,一連の下流タスクに与える影響について検討する。
- 参考スコア(独自算出の注目度): 117.90699699469639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has largely reshaped remote sensing research for aerial image
understanding. Nevertheless, most of existing deep models are initialized with
ImageNet pretrained weights, where the natural images inevitably presents a
large domain gap relative to the aerial images, probably limiting the
finetuning performance on downstream aerial scene tasks. This issue motivates
us to conduct an empirical study of remote sensing pretraining (RSP). To this
end, we train different networks from scratch with the help of the largest
remote sensing scene recognition dataset up to now-MillionAID, to obtain the
remote sensing pretrained backbones, including both convolutional neural
networks (CNN) and vision transformers such as Swin and ViTAE, which have shown
promising performance on computer vision tasks. Then, we investigate the impact
of ImageNet pretraining (IMP) and RSP on a series of downstream tasks including
scene recognition, semantic segmentation, object detection, and change
detection using the CNN and vision transformers backbones. We have some
empirical findings as follows. First, vision transformers generally outperforms
CNN backbones, where ViTAE achieves the best performance, owing to its strong
representation capacity by introducing intrinsic inductive bias from
convolutions to transformers. Second, both IMP and RSP help deliver better
performance, where IMP enjoys a versatility by learning more universal
representations from diverse images belonging to much more categories while RSP
is distinctive in perceiving remote sensing related semantics. Third, RSP
mitigates the data discrepancy of IMP for remote sensing but may still suffer
from the task discrepancy, where downstream tasks require different
representations from the scene recognition task. These findings call for
further research efforts on both large-scale pretraining datasets and effective
pretraining methods.
- Abstract(参考訳): 深層学習は、空中画像理解のためのリモートセンシング研究を大きく変えてきた。
それにもかかわらず、既存の深層モデルはimagenetプリトレーニングウェイトで初期化されており、自然画像は必然的に空中画像と比較して大きな領域ギャップを示し、おそらく下流の空中シーンタスクの微調整性能を制限している。
この課題は、リモートセンシング事前訓練(RSP)の実証的研究を行う動機となっている。
そこで我々は,コンピュータビジョンタスクにおいて有望な性能を示すコンボリューショナルニューラルネットワーク(CNN)と,SwinやViTAEなどのビジョントランスフォーマーを含む,リモートセンシング事前学習されたバックボーンを得るために,現在MillionAIDまでの最大のリモートセンシングシーン認識データセットの助けを借りて,ゼロから異なるネットワークをトレーニングする。
次に,画像ネット事前学習(IMP)とRSPがシーン認識,セマンティックセグメンテーション,オブジェクト検出,CNNと視覚変換器のバックボーンを用いた変化検出など,一連の下流タスクに与える影響について検討する。
以下の経験的な知見がある。
まず、視覚トランスフォーマーは一般的にcnnのバックボーンよりも優れており、vitaeは畳み込みからトランスフォーマーに内在的な帰納的バイアスを導入することで、表現能力の強いため最高の性能を達成している。
第2に、IMPとRSPはどちらもパフォーマンスの向上に役立ち、IMPはより多くのカテゴリに属する多様な画像からより普遍的な表現を学習し、RSPはリモートセンシング関連セマンティクスの知覚に特有である。
第3に、RSPは、リモートセンシングのためのIMPのデータ差を緩和するが、下流タスクがシーン認識タスクと異なる表現を必要とするタスク差に苦しむ可能性がある。
これらの知見は、大規模事前トレーニングデータセットと効果的な事前トレーニング方法の両方について、さらなる研究の努力を必要とする。
関連論文リスト
- MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Generic Knowledge Boosted Pre-training For Remote Sensing Images [46.071496675604884]
Generic Knowledge Boosted Remote Sensing Pre-training (GeRSP)は、新しいリモートセンシング事前トレーニングフレームワークである。
GeRSPは、リモートセンシング理解タスクのために、リモートセンシングと自然なイメージから堅牢な表現を学ぶ。
本稿では,GeRSPが効果的にロバスト表現を統一的に学習できることを示し,リモートセンシングダウンストリームタスクの性能を向上させる。
論文 参考訳(メタデータ) (2024-01-09T15:36:07Z) - UAVs and Neural Networks for search and rescue missions [0.0]
無人航空機(UAV)が捉えた空中画像において,車,人,火などの興味の対象を検出する方法を提案する。
これを実現するために,ニューラルネットワークを用いて教師あり学習のためのデータセットを作成する。
論文 参考訳(メタデータ) (2023-10-09T08:27:35Z) - Supervised and Contrastive Self-Supervised In-Domain Representation
Learning for Dense Prediction Problems in Remote Sensing [0.0]
本稿では、リモートセンシングと画像Netデータセットの領域差を解決するために、教師付きおよび自己教師型両方のドメイン表現の有効性について検討する。
自己教師付き事前学習では,SimSiamアルゴリズムは単純であり,膨大な計算資源を必要としない。
その結果,自己教師付き表現学習に空間分解能の高いデータセットを用いることで,下流タスクの性能が向上することが実証された。
論文 参考訳(メタデータ) (2023-01-29T20:56:51Z) - Is Deep Image Prior in Need of a Good Education? [57.3399060347311]
画像再構成に有効な先行画像として, 奥行き画像が導入された。
その印象的な再建性にもかかわらず、学習技術や伝統的な再建技術と比べてアプローチは遅い。
計算課題に対処する2段階の学習パラダイムを開発する。
論文 参考訳(メタデータ) (2021-11-23T15:08:26Z) - Homography augumented momentum constrastive learning for SAR image
retrieval [3.9743795764085545]
本稿では, ホログラフィ変換を用いた画像検索手法を提案する。
また,ラベル付け手順を必要としないコントラスト学習によって誘導されるDNNのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-21T17:27:07Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - RDAnet: A Deep Learning Based Approach for Synthetic Aperture Radar
Image Formation [0.0]
我々は、画像形成と画像処理の両方を行うディープニューラルネットワークを訓練し、SAR処理パイプラインを統合する。
その結果,従来のアルゴリズムと同等の画質のSAR画像を精度良く出力できることが示唆された。
論文 参考訳(メタデータ) (2020-01-22T18:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。