論文の概要: A Billion-scale Foundation Model for Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2304.05215v2
- Date: Mon, 13 May 2024 05:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 01:51:46.780741
- Title: A Billion-scale Foundation Model for Remote Sensing Images
- Title(参考訳): リモートセンシング画像のための数十億ドル規模の基礎モデル
- Authors: Keumgang Cha, Junghoon Seo, Taekyung Lee,
- Abstract要約: 基礎モデルの事前学習における3つの重要な要因は、事前学習方法、事前学習データセットのサイズ、モデルパラメータの数である。
本稿では,下流タスクにおける基礎モデルの性能に及ぼすモデルパラメータ数の増加の影響について検討する。
我々の知る限りでは、これはリモートセンシング分野における最初の10億ドル規模の基礎モデルである。
- 参考スコア(独自算出の注目度): 5.065947993017157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the potential of foundation models in visual tasks has garnered significant attention, pretraining these models before downstream tasks has become a crucial step. The three key factors in pretraining foundation models are the pretraining method, the size of the pretraining dataset, and the number of model parameters. Recently, research in the remote sensing field has focused primarily on the pretraining method and the size of the dataset, with limited emphasis on the number of model parameters. This paper addresses this gap by examining the effect of increasing the number of model parameters on the performance of foundation models in downstream tasks such as rotated object detection and semantic segmentation. We pretrained foundation models with varying numbers of parameters, including 86M, 605.26M, 1.3B, and 2.4B, to determine whether performance in downstream tasks improved with an increase in parameters. To the best of our knowledge, this is the first billion-scale foundation model in the remote sensing field. Furthermore, we propose an effective method for scaling up and fine-tuning a vision transformer in the remote sensing field. To evaluate general performance in downstream tasks, we employed the DOTA v2.0 and DIOR-R benchmark datasets for rotated object detection, and the Potsdam and LoveDA datasets for semantic segmentation. Experimental results demonstrated that, across all benchmark datasets and downstream tasks, the performance of the foundation models and data efficiency improved as the number of parameters increased. Moreover, our models achieve the state-of-the-art performance on several datasets including DIOR-R, Postdam, and LoveDA.
- Abstract(参考訳): 視覚タスクにおける基礎モデルの可能性に大きな注目を集めているため、下流タスクの前にこれらのモデルを事前訓練することが重要なステップとなっている。
基礎モデルの事前学習における3つの重要な要素は、事前学習方法、事前学習データセットのサイズ、モデルパラメータの数である。
近年,リモートセンシング分野の研究は,モデルパラメータの数に限定して,事前学習手法とデータセットのサイズに重点を置いている。
本稿では, オブジェクトの回転検出やセマンティックセグメンテーションといった下流タスクにおける基礎モデルの性能に及ぼすモデルパラメータ数の増加の影響を検討することで, このギャップを解消する。
86M, 605.26M, 1.3B, 2.4Bなど,様々なパラメータを持つ基礎モデルを事前学習し, パラメータの増加に伴う下流タスクの性能向上を検証した。
我々の知る限りでは、これはリモートセンシング分野における最初の10億ドル規模の基礎モデルである。
さらに,リモートセンシング分野における視覚変換器のスケールアップと微調整に有効な手法を提案する。
下流タスクにおける一般的な性能を評価するために、回転物体検出のためのDOTA v2.0とDIOR-Rベンチマークデータセット、意味的セグメンテーションのためのPotsdamとLoveDAデータセットを用いた。
実験の結果、すべてのベンチマークデータセットとダウンストリームタスクにおいて、基礎モデルの性能とデータ効率が改善し、パラメータの数が増加した。
さらに,本モデルでは,DIOR-R,Postdam,LoveDAなど,いくつかのデータセットで最先端のパフォーマンスを実現している。
関連論文リスト
- MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Towards A Foundation Model For Trajectory Intelligence [0.0]
実世界のユーザチェックインデータを用いて,大規模軌跡モデルのトレーニング結果を示す。
提案手法は,マスク付き軌道モデルを用いてベースモデルを事前学習する,事前学習と微調整のパラダイムに従う。
私たちの経験分析では、600万人以上のユーザーが生成した20億以上のチェックインの包括的データセットを利用しています。
論文 参考訳(メタデータ) (2023-11-30T00:34:09Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - CHORUS: Foundation Models for Unified Data Discovery and Exploration [6.85448651843431]
基礎モデルは,データ発見およびデータ探索領域に適用可能であることを示す。
基礎モデルに基づくアプローチは,タスク固有のモデルよりも優れており,その技術の現状を示す。
これは、異なるデータ管理タスクを基礎モデルの下で統一できる将来的な方向性を示唆している。
論文 参考訳(メタデータ) (2023-06-16T03:58:42Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。