論文の概要: Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation
- arxiv url: http://arxiv.org/abs/2504.06962v2
- Date: Mon, 28 Apr 2025 15:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.448856
- Title: Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation
- Title(参考訳): 動的データセット計算による地球観測のための効率的な自己教師付き学習
- Authors: Thomas Kerdreux, Alexandre Tuel, Quentin Febvre, Alexis Mouche, Bertrand Chapron,
- Abstract要約: 自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 67.23953699167274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has enabled the development of vision foundation models for Earth Observation (EO), demonstrating strong transferability across diverse remote sensing tasks. While prior work has focused on network architectures and training strategies, the role of dataset curation, especially in balancing and diversifying pre-training datasets, remains underexplored. In EO, this challenge is amplified by the redundancy and heavy-tailed distributions common in satellite imagery, which can lead to biased representations and inefficient training. In this work, we propose a dynamic dataset pruning strategy designed to improve SSL pre-training by maximizing dataset diversity and balance. Our method iteratively refines the training set without requiring a pre-existing feature extractor, making it well-suited for domains where curated datasets are limited or unavailable. We demonstrate our approach on the Sentinel-1 Wave Mode (WV) Synthetic Aperture Radar (SAR) archive, a challenging dataset dominated by ocean observations. We train models from scratch on the entire Sentinel-1 WV archive spanning 10 years. Across three downstream tasks, our results show that dynamic pruning improves both computational efficiency and representation quality, leading to stronger transferability. We also release the weights of OceanSAR-1, the first model in the OceanSAR family, a series of foundation models for ocean observation and analysis using SAR imagery, at github.com/galeio-research/OceanSAR-models/.
- Abstract(参考訳): 自己教師付き学習(SSL)により、地球観測(EO)のための視覚基盤モデルの開発が可能となり、多様なリモートセンシングタスク間で強い伝達可能性を示している。
以前の作業では、ネットワークアーキテクチャとトレーニング戦略に重点を置いていたが、データセットキュレーション、特に事前トレーニングデータセットのバランスと多様化における役割は、まだ過小評価されている。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅され、偏りのある表現や非効率な訓練につながる可能性がある。
本研究では、データセットの多様性とバランスを最大化し、SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
提案手法は,既存の特徴抽出器を必要とせず,反復的にトレーニングセットを洗練し,キュレートされたデータセットが制限されたり,利用できない領域に適している。
我々は,海洋観測に支配される挑戦的データセットであるSentinel-1 Wave Mode (WV) Synthetic Aperture Radar (SAR)アーカイブへのアプローチを実証した。
10年にわたるSentinel-1 WVアーカイブ全体のスクラッチからモデルをトレーニングします。
3つの下流タスクにおいて,動的プルーニングにより計算効率と表現品質が向上し,転送性が向上した。
We release the weights of OceanSAR-1, the first model in the OceanSAR family, a series of ocean Observation and analysis using SAR image, at github.com/galeio-research/OceanSAR-models/。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Advancing ALS Applications with Large-Scale Pre-training: Dataset Development and Downstream Assessment [6.606615641354963]
事前訓練と微調整のパラダイムは、衛星リモートセンシングの応用に革命をもたらした。
大規模なALSポイントクラウドデータセットを構築し、下流アプリケーションへの影響を評価する。
以上の結果から,事前学習したモデルは,ダウンストリームタスク全体において,スクラッチよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-01-09T09:21:09Z) - Scale-Translation Equivariant Network for Oceanic Internal Solitary Wave Localization [7.444865250744234]
内部孤立波(英:internal Solitary wave、ISW)は、内部の海洋でしばしば観測される重力波である。
光リモートセンシング画像における雲のカバーは、地表面の情報を可変的に曖昧にし、ぼやけたり、表面の観察を欠いたりする。
本稿では,ISWを自動検出するアルゴリズムを用いた機械学習ソリューションを提案する。
論文 参考訳(メタデータ) (2024-06-18T21:09:56Z) - Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining [19.143105229950976]
土地被覆土地利用製品は、自然界の強い知識を持つビジョン基盤モデルと同様に、自由なグローバルな意味情報を提供する。
これらの自由な追加リソースは、一般的なコントラスト学習ボトルネックを解決するだけでなく、EO事前学習の効率と効果を大幅に向上させることを示す。
我々は、既存のSOTAモデルよりも11の下流タスクのうち10のタスクにおいて、はるかに優れた結果が得られるマルチスペクトルおよびSAR基盤モデルを作成している。
論文 参考訳(メタデータ) (2024-05-30T20:19:42Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。