論文の概要: SSL4EO-S12 v1.1: A Multimodal, Multiseasonal Dataset for Pretraining, Updated
- arxiv url: http://arxiv.org/abs/2503.00168v2
- Date: Thu, 06 Mar 2025 09:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:32.193995
- Title: SSL4EO-S12 v1.1: A Multimodal, Multiseasonal Dataset for Pretraining, Updated
- Title(参考訳): SSL4EO-S12 v1.1: 事前トレーニングのためのマルチモーダル、マルチシーズンデータセット、更新
- Authors: Benedikt Blumenstiel, Nassim Ait Ali Braham, Conrad M Albrecht, Stefano Maurogiovanni, Paolo Fraccaro,
- Abstract要約: SSL4EO-S12 v1.1は大規模な基盤モデルの事前トレーニング用に設計されたデータセットである。
このデータセットは、世界1万の大都市とその周辺を4つの季節にわたって半径50kmの範囲でカバーしている。
- 参考スコア(独自算出の注目度): 1.627786257389396
- License:
- Abstract: This technical report presents SSL4EO-S12 v1.1, a multimodal, multitemporal Earth Observation dataset designed for pretraining large-scale foundation models. Building on the success of SSL4EO-S12 v1.0, the new version addresses the previous challenges of data misalignment and a limited data structure for low-barrier, analysis-ready EO processing. SSL4EO-S12 v1.1 covers the world's 10,000 largest cities and its surroundings within a 50 km radius across four seasons, resulting in a diverse collection of nearly one million patches. SSL4EO-S12 v1.1 packages the data in Zarr file format for cloud-efficient loading and representation of meta-information such as including cloud masks and geolocation. Released under the CC-BY-4.0 license, SSL4EO-S12 v1.1 facilitates open research and provides a robust foundation for future advancements in self-supervised learning and geospatial analysis. The dataset is available online through https://datapub.fz-juelich.de/ssl4eo-s12, and we provided additional resources at https://github.com/DLR-MF-DAS/SSL4EO-S12-v1.1.
- Abstract(参考訳): この技術報告では、SSL4EO-S12 v1.1が提案されている。
SSL4EO-S12 v1.0の成功に基づいて、新しいバージョンでは、データアライメントの以前の課題と、ローバリアで分析可能なEO処理のための制限されたデータ構造に対処している。
SSL4EO-S12 v1.1は世界1万の大都市とその周辺を4シーズンにわたって50kmの範囲でカバーし、100万近いパッチを収集している。
SSL4EO-S12 v1.1は、クラウド効率のロードと、クラウドマスクやジオロケーションなどのメタ情報の表現のために、Zarrファイル形式でデータをパッケージする。
SSL4EO-S12 v1.1は、CC-BY-4.0ライセンスの下でリリースされ、オープンな研究を促進するとともに、自己教師あり学習と地理空間分析における将来の進歩のための堅牢な基盤を提供する。
データセットはhttps://datapub.fz-juelich.de/ssl4eo-s12からオンラインで入手可能で、https://github.com/DLR-MF-DAS/SSL4EO-S12-v1.1で追加リソースを提供した。
関連論文リスト
- Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - Erasing the Bias: Fine-Tuning Foundation Models for Semi-Supervised Learning [4.137391543972184]
半教師付き学習(SSL)は目覚ましい進歩をみせており、多くの方法のバリエーションをもたらしている。
本稿では,FinSSLという新しいSSLアプローチを提案する。
我々は、FineSSLが複数のベンチマークデータセットにSSLの新たな状態を設定し、トレーニングコストを6倍以上削減し、さまざまな微調整と現代的なSSLアルゴリズムをシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-05-20T03:33:12Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - SSL4EO-L: Datasets and Foundation Models for Landsat Imagery [8.34029977985994]
ランドサット計画 (Landsat program) は、過去最長の地球観測計画であり、8つの衛星による50年以上のデータ取得である。
深層学習やリモートセンシングの普及にもかかわらず、ほとんどの研究者はランドサットの画像解析に決定木とランダムな森林を使っている。
本稿では,ランドサット衛星群を対象としたセルフ・スーパーバイザード・ラーニング・フォー・アース・オブ・オブ・アース・オブ・ザ・観察のために設計された最初のデータセットであるSSL4EO-Lを紹介する。
論文 参考訳(メタデータ) (2023-06-15T18:11:20Z) - A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends [82.64268080902742]
自己教師付き学習(SSL)は、ラベル付きラベルを頼らずにラベル付きデータから識別的特徴を学習することを目的としている。
SSLは最近大きな注目を集め、多くの関連するアルゴリズムの開発に繋がった。
本稿では,アルゴリズム的側面,アプリケーション領域,3つの重要なトレンド,オープンな研究課題を含む,多様なSSL手法のレビューを行う。
論文 参考訳(メタデータ) (2023-01-13T14:41:05Z) - SSL4EO-S12: A Large-Scale Multi-Modal, Multi-Temporal Dataset for
Self-Supervised Learning in Earth Observation [20.94411133447731]
自己教師による事前訓練は、人間のアノテーションなしで表現力のある表現を生成する可能性を秘めている。
我々は、グローバル、マルチモーダル、マルチシーズンの衛星画像コーパスを組み立てるために、ラベルのないRSデータセットSSL4EO-S12を共有している。
論文 参考訳(メタデータ) (2022-11-13T23:38:27Z) - SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous
American Sign Language [0.0]
ASLデータセットの最初のバージョンは、30k文、416k単語、18k単語の語彙を合計104時間でリリースしています。
これはビデオの持続時間で現在まで発行されている最大の連続手話データセットである。
論文 参考訳(メタデータ) (2022-10-13T07:08:00Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。