論文の概要: Do Satellite Tasks Need Special Pretraining?
- arxiv url: http://arxiv.org/abs/2510.17014v1
- Date: Sun, 19 Oct 2025 21:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.246927
- Title: Do Satellite Tasks Need Special Pretraining?
- Title(参考訳): 衛星タスクは特別な準備が必要か?
- Authors: Ani Vanyan, Alvard Barseghyan, Hakob Tamazyan, Tigran Galstyan, Vahan Huroyan, Naira Hovakimyan, Hrant Khachatrian,
- Abstract要約: 最近、複数のチームがリモートセンシングアプリケーションに特化した基礎モデルを訓練した。
我々は、特定の基礎モデルが汎用的な視覚基盤モデルよりも有用であるという考えに、体系的に挑戦する。
これらの事前訓練されたモデルはいずれも、ViT-Bスケールでの汎用ベースラインに一貫した改善をもたらすものではない。
- 参考スコア(独自算出の注目度): 7.711325934411266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have advanced machine learning across various modalities, including images. Recently multiple teams trained foundation models specialized for remote sensing applications. This line of research is motivated by the distinct characteristics of remote sensing imagery, specific applications and types of robustness useful for satellite image analysis. In this work we systematically challenge the idea that specific foundation models are more useful than general-purpose vision foundation models, at least in the small scale. First, we design a simple benchmark that measures generalization of remote sensing models towards images with lower resolution for two downstream tasks. Second, we train iBOT, a self-supervised vision encoder, on MillionAID, an ImageNet-scale satellite imagery dataset, with several modifications specific to remote sensing. We show that none of those pretrained models bring consistent improvements upon general-purpose baselines at the ViT-B scale.
- Abstract(参考訳): ファンデーションモデルには、画像を含むさまざまなモダリティにわたる高度な機械学習がある。
最近、複数のチームがリモートセンシングアプリケーションに特化した基礎モデルを訓練した。
この一連の研究は、リモートセンシング画像の特徴、特定の用途、衛星画像解析に有用なロバスト性などによって動機付けられている。
この研究では、少なくとも小規模では、特定の基礎モデルの方が汎用的な基礎モデルよりも有用であるという考えに体系的に挑戦する。
まず,2つのダウンストリームタスクに対して,低解像度の画像に対するリモートセンシングモデルの一般化を計測する簡単なベンチマークを設計する。
第2に、イメージネットスケールの衛星画像データセットであるMarioAID上で、自己監督型ビジョンエンコーダiBOTをトレーニングし、リモートセンシングに特化したいくつかの修正を行った。
これらの事前訓練されたモデルはいずれも、ViT-Bスケールでの汎用ベースラインに一貫した改善をもたらすものではない。
関連論文リスト
- SatVision-TOA: A Geospatial Foundation Model for Coarse-Resolution All-Sky Remote Sensing Imagery [8.096413986108601]
本稿では,14バンドMODIS L1B Top-Of-Atmosphere (TOA) を用いた新しい基礎モデルであるSatVision-TOAを紹介する。
SatVision-TOA モデルは Masked-Image-Modeling (MIM) フレームワークと SwinV2 アーキテクチャを使って事前訓練されている。
その結果、SatVision-TOAは、下流タスクのベースラインメソッドよりも優れたパフォーマンスを実現することがわかった。
論文 参考訳(メタデータ) (2024-11-26T00:08:00Z) - Improving satellite imagery segmentation using multiple Sentinel-2 revisits [0.0]
我々は、微調整された事前学習されたリモートセンシングモデルのフレームワークにおいて、リビジョンを使用する最善の方法を探る。
モデル潜在空間における複数の再試行からの融合表現は、他の再試行法よりも優れていることが判明した。
SWINトランスフォーマーベースのアーキテクチャは、U-netやViTベースのモデルよりも優れている。
論文 参考訳(メタデータ) (2024-09-25T21:13:33Z) - A Causally Informed Pretraining Approach for Multimodal Foundation Models: Applications in Remote Sensing [16.824262496666893]
大規模データを用いた基礎モデルの事前学習のための強力なパラダイムとして,自己教師型学習が登場している。
条件生成タスクとして予測をモデル化する新しい事前学習タスクであるCausally Informed Variable-Step Forecasting (CI-VSF)を提案する。
このような事前学習は,予測と予測の両方に微調整を施すと,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T02:49:55Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。