論文の概要: Pretraining Billion-scale Geospatial Foundational Models on Frontier
- arxiv url: http://arxiv.org/abs/2404.11706v1
- Date: Wed, 17 Apr 2024 19:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:40:17.437848
- Title: Pretraining Billion-scale Geospatial Foundational Models on Frontier
- Title(参考訳): フロンティアにおける数十億ドル規模の地空間基礎モデルの構築
- Authors: Aristeidis Tsaris, Philipe Ambrozio Dias, Abhishek Potnis, Junqi Yin, Feiyi Wang, Dalton Lunga,
- Abstract要約: ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
- 参考スコア(独自算出の注目度): 0.16492989697868893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI workloads increase in scope, generalization capability becomes challenging for small task-specific models and their demand for large amounts of labeled training samples increases. On the contrary, Foundation Models (FMs) are trained with internet-scale unlabeled data via self-supervised learning and have been shown to adapt to various tasks with minimal fine-tuning. Although large FMs have demonstrated significant impact in natural language processing and computer vision, efforts toward FMs for geospatial applications have been restricted to smaller size models, as pretraining larger models requires very large computing resources equipped with state-of-the-art hardware accelerators. Current satellite constellations collect 100+TBs of data a day, resulting in images that are billions of pixels and multimodal in nature. Such geospatial data poses unique challenges opening up new opportunities to develop FMs. We investigate billion scale FMs and HPC training profiles for geospatial applications by pretraining on publicly available data. We studied from end-to-end the performance and impact in the solution by scaling the model size. Our larger 3B parameter size model achieves up to 30% improvement in top1 scene classification accuracy when comparing a 100M parameter model. Moreover, we detail performance experiments on the Frontier supercomputer, America's first exascale system, where we study different model and data parallel approaches using PyTorch's Fully Sharded Data Parallel library. Specifically, we study variants of the Vision Transformer architecture (ViT), conducting performance analysis for ViT models with size up to 15B parameters. By discussing throughput and performance bottlenecks under different parallelism configurations, we offer insights on how to leverage such leadership-class HPC resources when developing large models for geospatial imagery applications.
- Abstract(参考訳): AIワークロードがスコープを拡大するにつれて、小さなタスク固有のモデルでは一般化能力が難しくなり、大量のラベル付きトレーニングサンプルの需要が増大する。
それに対して、ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練されており、最小限の微調整で様々なタスクに適応することが示されている。
大規模FMは、自然言語処理やコンピュータビジョンに多大な影響を与えてきたが、地理空間アプリケーションのためのFMへの取り組みは、より小さなモデルに制限されている。
現在の衛星星座は1日に100TB以上のデータを収集し、自然界の数十億ピクセルとマルチモーダルの画像を生み出している。
このような地理空間データには、FMを開発する新たな機会が開ける固有の課題がある。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
私たちは、モデルサイズをスケールすることで、ソリューションのパフォーマンスと影響をエンドツーエンドから調査しました。
より大規模な3Bパラメータサイズモデルでは,100Mパラメータモデルを比較すると,トップ1シーンの分類精度が最大30%向上する。
さらに、PyTorchのFully Sharded Data Parallelライブラリを用いて、異なるモデルとデータ並列アプローチを研究するアメリカの最初のエクサスケールシステムであるFrontierスーパーコンピュータの性能実験について詳述する。
具体的には、最大15BパラメータのViTモデルに対して、ViT(Vision Transformer Architecture)の変種について、性能解析を行う。
異なる並列性構成下でスループットとパフォーマンスボトルネックを議論することにより、地理空間画像アプリケーションのための大規模モデルを開発する際に、このようなリーダーシップクラスのHPCリソースをどのように活用するかについての洞察を提供する。
関連論文リスト
- OReole-FM: successes and challenges toward billion-parameter foundation models for high-resolution satellite imagery [0.3926357402982764]
数十億のパラメータにモデルをスケールすることは、創発的能力を含む前例のない利益をもたらすことが示されている。
我々は、Frontierスーパーコンピュータ、アメリカ初のエクサスケールシステム、および10億スケールのFMを事前トレーニングするために高解像度の光学RSデータを含む高性能コンピューティングリソースをペアリングする。
論文 参考訳(メタデータ) (2024-10-25T20:55:12Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。