論文の概要: Scaling Remote Sensing Foundation Models: Data Domain Tradeoffs at the Peta-Scale
- arxiv url: http://arxiv.org/abs/2512.23903v1
- Date: Mon, 29 Dec 2025 23:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.236182
- Title: Scaling Remote Sensing Foundation Models: Data Domain Tradeoffs at the Peta-Scale
- Title(参考訳): リモートセンシングファウンデーションモデルのスケールアップ - Peta-Scaleにおけるデータドメイントレードオフ
- Authors: Charith Wickrema, Eliza Mace, Hunter Brown, Heidys Cabrera, Nick Krall, Matthew O'Neill, Shivangi Sarkar, Lowell Weissman, Eric Hughes, Guido Zarrella,
- Abstract要約: 我々は,人工知能のスケーリング行動を探究し,高解像度のEOデータセット上で基礎モデルをトレーニングするための技術を確立する。
この規模であっても、パフォーマンスはデータ制限されたレシエーションと一致している、と私たちは見ています。
これらの実践的な洞察は、データ収集戦略、計算予算、最適化スケジュールを知らせることを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the scaling behaviors of artificial intelligence to establish practical techniques for training foundation models on high-resolution electro-optical (EO) datasets that exceed the current state-of-the-art scale by orders of magnitude. Modern multimodal machine learning (ML) applications, such as generative artificial intelligence (GenAI) systems for image captioning, search, and reasoning, depend on robust, domain-specialized encoders for non-text modalities. In natural-image domains where internet-scale data is plentiful, well-established scaling laws help optimize the joint scaling of model capacity, training compute, and dataset size. Unfortunately, these relationships are much less well-understood in high-value domains like remote sensing (RS). Using over a quadrillion pixels of commercial satellite EO data and the MITRE Federal AI Sandbox, we train progressively larger vision transformer (ViT) backbones, report success and failure modes observed at petascale, and analyze implications for bridging domain gaps across additional RS modalities. We observe that even at this scale, performance is consistent with a data limited regime rather than a model parameter-limited one. These practical insights are intended to inform data-collection strategies, compute budgets, and optimization schedules that advance the future development of frontier-scale RS foundation models.
- Abstract(参考訳): 我々は、人工知能のスケーリングの振る舞いを探求し、現在最先端の規模を超える高分解能電気光学(EO)データセットに基づく基礎モデルを桁違いに訓練するための実践的手法を確立する。
画像キャプション、検索、推論のための生成人工知能(GenAI)システムのような現代のマルチモーダル機械学習(ML)の応用は、非テキストモダリティのための堅牢なドメイン特化エンコーダに依存している。
インターネットスケールデータが豊富である自然画像領域において、確立されたスケーリング法則は、モデルキャパシティ、トレーニング計算、データセットサイズの共同スケーリングを最適化するのに役立つ。
残念ながら、これらの関係はリモートセンシング(RS)のような高価値領域ではよく理解されていない。
商用衛星EOデータとMITRE連邦AIサンドボックスの4分の1ピクセル以上を使用して、私たちは徐々に大きなビジョントランスフォーマー(ViT)バックボーンをトレーニングし、ペタスケールで観測された成功と失敗モードを報告し、追加のRSモダリティ間でドメインギャップを埋めることの意味を分析する。
このスケールであっても、性能はモデルパラメータ限定型ではなく、データ制限型と一致している。
これらの実践的な洞察は、フロンティアスケールRSファンデーションモデルの将来の発展を促進するために、データ収集戦略、計算予算、最適化スケジュールを通知することを目的としている。
関連論文リスト
- Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - On the Status of Foundation Models for SAR Imagery [10.480790915352255]
本稿では,SAR(Synthetic Aperture Radar)オブジェクト認識タスクにおける基礎的AI/MLモデルの実現可能性について検討する。
我々は、SARデータを用いた公開SSLモデルのセルフスーパービジョン微調整が実現可能であることを示す。
実験では、下流のタスク適応レシピで異なるバックボーンを使用することによるパフォーマンスのトレードオフをさらに分析した。
論文 参考訳(メタデータ) (2025-09-26T00:46:17Z) - Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。
性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。
本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-05T08:03:12Z) - Enhancing material behavior discovery using embedding-oriented Physically-Guided Neural Networks with Internal Variables [0.0]
内部変数を持つ物理的ガイド付きニューラルネットワークは、トレーニングや内部状態関係の解明に可観測データのみを使用するSciMLツールである。
それらの可能性にもかかわらず、これらのモデルは、細粒度空間場や時間進化システムのような高次元データに適用する場合、スケーラビリティの課題に直面している。
本稿では,これらのスケーラビリティの限界に対処するPGNNIVフレームワークの改良について,低次モデリング手法を用いて提案する。
論文 参考訳(メタデータ) (2025-08-01T12:33:21Z) - Efficient Adaptation For Remote Sensing Visual Grounding [0.46425518005471045]
事前訓練されたモデルへの適応は人工知能の効果的な戦略となり、スクラッチからモデルのトレーニングにスケーラブルで効率的な代替手段を提供する。
本研究は, リモートセンシングにおけるPEFT技術の高効率かつ高精度なマルチモーダル解析への応用について述べる。
論文 参考訳(メタデータ) (2025-03-29T13:49:11Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - OReole-FM: successes and challenges toward billion-parameter foundation models for high-resolution satellite imagery [0.3926357402982764]
数十億のパラメータにモデルをスケールすることは、創発的能力を含む前例のない利益をもたらすことが示されている。
我々は、Frontierスーパーコンピュータ、アメリカ初のエクサスケールシステム、および10億スケールのFMを事前トレーニングするために高解像度の光学RSデータを含む高性能コンピューティングリソースをペアリングする。
論文 参考訳(メタデータ) (2024-10-25T20:55:12Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Quanv4EO: Empowering Earth Observation by means of Quanvolutional Neural Networks [62.12107686529827]
本稿は、大量のリモートセンシングデータの処理において、量子コンピューティング技術を活用することへの大きなシフトを取り上げる。
提案したQuanv4EOモデルでは,多次元EOデータを前処理するための準進化法が導入された。
主要な知見は,提案モデルが画像分類の精度を維持するだけでなく,EOのユースケースの約5%の精度向上を図っていることを示唆している。
論文 参考訳(メタデータ) (2024-07-24T09:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。