論文の概要: How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks?
- arxiv url: http://arxiv.org/abs/2409.18536v1
- Date: Fri, 27 Sep 2024 08:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 21:55:30.265302
- Title: How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks?
- Title(参考訳): 下流地球観測における大型マスクオートエンコーダの事前学習はどの程度有効か?
- Authors: Jose Sosa, Mohamed Aloulou, Danila Rukhovich, Rim Sleimi, Boonyarit Changaival, Anis Kacem, Djamila Aouada,
- Abstract要約: 自己教師付き事前訓練は多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。
事前訓練されたモデルがスクラッチからトレーニングするよりも大きなアドバンテージを提供する条件は、まだ不明である。
- 参考スコア(独自算出の注目度): 9.515532265294187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-training has proven highly effective for many computer vision tasks, particularly when labelled data are scarce. In the context of Earth Observation (EO), foundation models and various other Vision Transformer (ViT)-based approaches have been successfully applied for transfer learning to downstream tasks. However, it remains unclear under which conditions pre-trained models offer significant advantages over training from scratch. In this study, we investigate the effectiveness of pre-training ViT-based Masked Autoencoders (MAE) for downstream EO tasks, focusing on reconstruction, segmentation, and classification. We consider two large ViT-based MAE pre-trained models: a foundation model (Prithvi) and SatMAE. We evaluate Prithvi on reconstruction and segmentation-based downstream tasks, and for SatMAE we assess its performance on a classification downstream task. Our findings suggest that pre-training is particularly beneficial when the fine-tuning task closely resembles the pre-training task, e.g. reconstruction. In contrast, for tasks such as segmentation or classification, training from scratch with specific hyperparameter adjustments proved to be equally or more effective.
- Abstract(参考訳): 自己教師付き事前学習は、特にラベル付きデータが不足している場合、多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。
地球観測(EO)の文脈では、ファンデーションモデルと様々なビジョントランスフォーマー(ViT)ベースのアプローチが下流タスクへの変換学習に成功している。
しかし、どの条件下で事前訓練されたモデルがスクラッチからトレーニングするよりも大きな利点をもたらすのかは定かではない。
本研究では,VT ベースの Masked Autoencoders (MAE) の下流EO タスクに対する事前学習の有効性について検討し,再構築,セグメンテーション,分類に焦点を当てた。
基礎モデル (Prithvi) と SatMAE (SatMAE) の2つのモデルについて検討する。
再構成とセグメント化に基づく下流タスクにおけるPrithviの評価を行い、SatMAEでは下流タスクの分類においてその性能を評価する。
本研究は, 微調整作業がトレーニング前作業, eg 再構成と密接に類似している場合に, 事前訓練が特に有益であることが示唆された。
対照的に、セグメンテーションや分類などのタスクでは、特定のハイパーパラメータ調整によるスクラッチからのトレーニングは、等しく、より効果的であることが判明した。
関連論文リスト
- Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。
次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。
このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文 参考訳(メタデータ) (2024-09-30T10:25:47Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - Automating Code-Related Tasks Through Transformers: The Impact of
Pre-training [15.129062963782005]
コード関連タスクの自動化において,事前学習対象が変圧器の性能に及ぼす影響について検討する。
i)ソフトウェア工学(SE)の文献に通常採用される汎用的な事前学習目標と,(ii)特定のコード関連タスクに適した事前学習目標の両方を用いて,32の変圧器を事前訓練する。
論文 参考訳(メタデータ) (2023-02-08T13:37:33Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - A Closer Look at Self-Supervised Lightweight Vision Transformers [44.44888945683147]
大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
画像分類タスクと下流密度予測タスクに関する自己教師付き事前学習手法のベンチマークを行った。
バニラ・ライトウェイトなViTでさえ、デリケートなアーキテクチャ設計を持つ以前のSOTAネットワークに匹敵する性能を示している。
論文 参考訳(メタデータ) (2022-05-28T14:14:57Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。