論文の概要: SatelliteCalculator: A Multi-Task Vision Foundation Model for Quantitative Remote Sensing Inversion
- arxiv url: http://arxiv.org/abs/2504.13442v1
- Date: Fri, 18 Apr 2025 03:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 19:23:37.459364
- Title: SatelliteCalculator: A Multi-Task Vision Foundation Model for Quantitative Remote Sensing Inversion
- Title(参考訳): SatelliteCalculator: 定量的リモートセンシングインバージョンのためのマルチタスクビジョン基礎モデル
- Authors: Zhenyu Yu, Mohd. Yamani Idna Idris, Pei Wang,
- Abstract要約: 定量的リモートセンシングインバージョンのための第1ビジョン基盤モデルであるサテライト計算機を紹介する。
物理的に定義されたインデックスアダプタを利用することで、100万以上のペアのサンプルからなる大規模なデータセットを自動的に構築する。
実験により、サテライト計算機は全てのタスクの競争精度を向上し、推論コストを大幅に削減することを示した。
- 参考スコア(独自算出の注目度): 4.824120664293887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantitative remote sensing inversion plays a critical role in environmental monitoring, enabling the estimation of key ecological variables such as vegetation indices, canopy structure, and carbon stock. Although vision foundation models have achieved remarkable progress in classification and segmentation tasks, their application to physically interpretable regression remains largely unexplored. Furthermore, the multi-spectral nature and geospatial heterogeneity of remote sensing data pose significant challenges for generalization and transferability. To address these issues, we introduce SatelliteCalculator, the first vision foundation model tailored for quantitative remote sensing inversion. By leveraging physically defined index formulas, we automatically construct a large-scale dataset of over one million paired samples across eight core ecological indicators. The model integrates a frozen Swin Transformer backbone with a prompt-guided architecture, featuring cross-attentive adapters and lightweight task-specific MLP decoders. Experiments on the Open-Canopy benchmark demonstrate that SatelliteCalculator achieves competitive accuracy across all tasks while significantly reducing inference cost. Our results validate the feasibility of applying foundation models to quantitative inversion, and provide a scalable framework for task-adaptive remote sensing estimation.
- Abstract(参考訳): リモートセンシングの定量的インバージョンは、環境モニタリングにおいて重要な役割を担い、植生指標、天蓋構造、炭素ストックといった重要な生態変数を推定することができる。
視覚基盤モデルは分類やセグメンテーションのタスクにおいて顕著な進歩を遂げてきたが、物理的に解釈可能な回帰への応用はいまだに未解明のままである。
さらに、リモートセンシングデータの多スペクトル特性と地理空間的不均一性は、一般化と転送可能性に大きな課題をもたらす。
これらの問題に対処するために,定量的なリモートセンシングインバージョンに適した,最初の視覚基礎モデルであるSitetaCalculatorを紹介した。
物理的に定義された指標式を活用することで、我々は8つのコア生態指標にまたがる100万以上のペアサンプルの大規模データセットを自動構築する。
このモデルは凍結したSwin Transformerのバックボーンとプロンプト誘導アーキテクチャを統合し、クロスアテンテートアダプタと軽量なタスク固有のMPPデコーダを備えている。
Open-Canopyベンチマークの実験では、サテライト計算機は推論コストを大幅に削減しつつ、全てのタスクで競争精度を達成している。
本研究では,基礎モデルによる定量的インバージョンの実現可能性を検証するとともに,タスク適応型リモートセンシング推定のためのスケーラブルなフレームワークを提供する。
関連論文リスト
- A Survey on Remote Sensing Foundation Models: From Vision to Multimodality [35.532200523631765]
リモートセンシングのための視覚とマルチモーダル基礎モデルは、インテリジェントな地理空間データ解釈能力を大幅に向上させた。
データタイプの多様性、大規模アノテートデータセットの必要性、マルチモーダル融合技術の複雑さは、これらのモデルの効果的なデプロイに重大な障害をもたらす。
本稿では、リモートセンシングのための最先端のビジョンモデルとマルチモーダル基礎モデルについて、アーキテクチャ、トレーニング方法、データセット、アプリケーションシナリオに焦点をあててレビューする。
論文 参考訳(メタデータ) (2025-03-28T01:57:35Z) - RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing [28.488986896516284]
RoMAは、大規模で多様なラベルのないデータを使用して、RSファンデーションモデルのスケーラブルな自己教師付き事前トレーニングを可能にするフレームワークである。
RoMAは、カスタマイズされた自動回帰学習戦略により、高解像度画像のスケーラビリティを向上させる。
シーン分類、オブジェクト検出、セマンティックセグメンテーションタスクにわたる実験により、RoMAで事前訓練されたMambaモデルは、精度と計算効率の両方において、ViTベースのモデルよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-03-13T14:09:18Z) - UrbanSAM: Learning Invariance-Inspired Adapters for Segment Anything Models in Urban Construction [51.54946346023673]
都市形態は本質的に複雑で、様々な形状と様々なスケールの不規則な物体がある。
Segment Anything Model (SAM) は複雑なシーンのセグメンテーションにおいて大きな可能性を示している。
本研究では,複雑な都市環境の分析に特化して設計されたSAMのカスタマイズ版であるUrbanSAMを提案する。
論文 参考訳(メタデータ) (2025-02-21T04:25:19Z) - WasteGAN: Data Augmentation for Robotic Waste Sorting through Generative Adversarial Networks [7.775894876221921]
ムダGANと呼ばれる新しいGANアーキテクチャに基づくデータ拡張手法を提案する。
提案手法は,ラベル付きサンプルのごく限られたセットから,セマンティックセグメンテーションモデルの性能を向上させることができる。
次に、ムダGAN合成データに基づいて訓練されたモデルから予測される高品質なセグメンテーションマスクを活用し、セグメンテーション・アウェア・グルーピング・ポーズを計算する。
論文 参考訳(メタデータ) (2024-09-25T15:04:21Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。