論文の概要: SatVision-TOA: A Geospatial Foundation Model for Coarse-Resolution All-Sky Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2411.17000v1
- Date: Tue, 26 Nov 2024 00:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:33:13.371383
- Title: SatVision-TOA: A Geospatial Foundation Model for Coarse-Resolution All-Sky Remote Sensing Imagery
- Title(参考訳): SatVision-TOA: 粗解全天リモートセンシング画像のための地理空間基盤モデル
- Authors: Caleb S. Spradlin, Jordan A. Caraballo-Vega, Jian Li, Mark L. Carroll, Jie Gong, Paul M. Montesano,
- Abstract要約: 本稿では,14バンドMODIS L1B Top-Of-Atmosphere (TOA) を用いた新しい基礎モデルであるSatVision-TOAを紹介する。
SatVision-TOA モデルは Masked-Image-Modeling (MIM) フレームワークと SwinV2 アーキテクチャを使って事前訓練されている。
その結果、SatVision-TOAは、下流タスクのベースラインメソッドよりも優れたパフォーマンスを実現することがわかった。
- 参考スコア(独自算出の注目度): 8.096413986108601
- License:
- Abstract: Foundation models have the potential to transform the landscape of remote sensing (RS) data analysis by enabling large computer vision models to be pre-trained on vast amounts of remote sensing data. These models can then be fine-tuned with small amounts of labeled training and applied to a variety of applications. Most existing foundation models are designed for high spatial resolution, cloud-free satellite imagery or photos, limiting their applicability in scenarios that require frequent temporal monitoring or broad spectral profiles. As a result, foundation models trained solely on cloud-free images have limited utility for applications that involve atmospheric variables or require atmospheric corrections. We introduce SatVision-TOA, a novel foundation model pre-trained on 14-band MODIS L1B Top-Of-Atmosphere (TOA) radiance imagery, addressing the need for models pre-trained to handle moderate- and coarse-resolution all-sky remote sensing data. The SatVision-TOA model is pre-trained using a Masked-Image-Modeling (MIM) framework and the SwinV2 architecture, and learns detailed contextual representations through self-supervised learning without the need for labels. It is a 3 billion parameter model that is trained on 100 million images. To our knowledge this is the largest foundation model trained solely on satellite RS imagery. Results show that SatVision-TOA achieves superior performance over baseline methods on downstream tasks such as 3D cloud retrieval. Notably, the model achieves a mean intersection over union (mIOU) of 0.46, a substantial improvement over the baseline mIOU of 0.22. Additionally, the rate of false negative results in the fine-tuning task were reduced by over 50% compared to the baseline. Our work advances pre-trained vision modeling for multispectral RS by learning from a variety of atmospheric and aerosol conditions to improve cloud and land surface monitoring.
- Abstract(参考訳): ファンデーションモデルは、大量のリモートセンシングデータに基づいて大規模なコンピュータビジョンモデルを事前訓練することにより、リモートセンシング(RS)データ分析のランドスケープを変革する可能性がある。
これらのモデルは、少量のラベル付きトレーニングで微調整して、さまざまなアプリケーションに適用することができる。
既存の基盤モデルは、高空間分解能、雲のない衛星画像または写真のために設計されており、頻繁な時間モニタリングや広いスペクトルプロファイルを必要とするシナリオにおける適用性を制限する。
結果として、クラウドフリーの画像にのみ訓練された基礎モデルは、大気変数を含むアプリケーションや大気補正を必要とするアプリケーションに限られている。
そこで本研究では,14バンドMODIS L1B(Top-Of-Atmosphere (TOA))放射像を事前学習した新しい基礎モデルであるSatVision-TOAについて紹介する。
SatVision-TOAモデルは、Masked-Image-Modeling (MIM)フレームワークとSwinV2アーキテクチャを使って事前トレーニングされ、ラベルを必要とせずに自己教師付き学習を通じて詳細なコンテキスト表現を学習する。
それは30億のパラメータモデルであり、1億の画像で訓練されている。
我々の知る限り、これは衛星RS画像のみに基づいて訓練された最大の基礎モデルである。
その結果,SatVision-TOAは,3次元クラウド検索などの下流タスクにおいて,ベースライン法よりも優れた性能が得られることがわかった。
特に、このモデルは0.46の結合(mIOU)の平均交叉を達成し、ベースラインのmIOUの0.22よりも大幅に改善される。
また, 微調整作業における偽陰性率は, ベースラインに比べて50%以上減少した。
本研究は,大気およびエアロゾルの様々な条件から学習し,雲や地表面のモニタリングを改善することで,マルチスペクトルRSの事前学習を行う。
関連論文リスト
- SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models [0.0]
ファンデーションモデルは、自己教師付きアルゴリズムを通じて、大規模なラベル付けされていないデータセットで事前訓練されたディープラーニングモデルを指す。
リモートセンシングのための様々な基礎モデルが開発されている。
本研究では、マスク付きオートエンコーダとステートスペースモデルを組み合わせた新しい事前トレーニングフレームワークであるSatMambaを提案する。
論文 参考訳(メタデータ) (2025-02-01T14:07:21Z) - Extrapolated Urban View Synthesis Benchmark [53.657271730352214]
光現実性シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である
中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する重要な能力である。
近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。
私たちは、自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開しました。
論文 参考訳(メタデータ) (2024-12-06T18:41:39Z) - FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - Explorations in Self-Supervised Learning: Dataset Composition Testing for Object Classification [0.0]
対象分類のための自己教師付き学習(SSL)モデルの性能に及ぼす画像特性の異なるデータセットを用いたサンプリングと事前学習の影響について検討する。
低解像度画像では深度事前学習モデルの方が有効であるのに対し、RGB事前学習モデルは高解像度画像ではより優れていた。
論文 参考訳(メタデータ) (2024-12-01T11:21:01Z) - OReole-FM: successes and challenges toward billion-parameter foundation models for high-resolution satellite imagery [0.3926357402982764]
数十億のパラメータにモデルをスケールすることは、創発的能力を含む前例のない利益をもたらすことが示されている。
我々は、Frontierスーパーコンピュータ、アメリカ初のエクサスケールシステム、および10億スケールのFMを事前トレーニングするために高解像度の光学RSデータを含む高性能コンピューティングリソースをペアリングする。
論文 参考訳(メタデータ) (2024-10-25T20:55:12Z) - Seeing Through the Clouds: Cloud Gap Imputation with Prithvi Foundation Model [1.2374541748245838]
マルチスペクトル衛星画像の時系列において,視覚変換器(ViT)モデルと基本条件生成逆数ネットワーク(CGAN)モデルを比較した。
現実のクラウドマスクを用いて衛星画像の時系列をランダムにマスキングし、各モデルをトレーニングし、欠落したピクセルを再構築する。
論文 参考訳(メタデータ) (2024-04-30T15:03:27Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。