論文の概要: Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
- arxiv url: http://arxiv.org/abs/2512.17224v1
- Date: Fri, 19 Dec 2025 04:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.245725
- Title: Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
- Title(参考訳): Any-Optical-Model:光リモートセンシングのためのユニバーサルファンデーションモデル
- Authors: Xuyang Li, Chenyu Li, Danfeng Hong,
- Abstract要約: 我々は任意のバンド構成、センサタイプ、解像度スケールに対応するためのAOM(Any Optical Model)を提案する。
AOMは、バンド不足、クロスセンサー、クロス解像度設定といった困難な条件下で、常に最先端(SOTA)性能を達成する。
- 参考スコア(独自算出の注目度): 24.03278912134978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical satellites, with their diverse band layouts and ground sampling distances, supply indispensable evidence for tasks ranging from ecosystem surveillance to emergency response. However, significant discrepancies in band composition and spatial resolution across different optical sensors present major challenges for existing Remote Sensing Foundation Models (RSFMs). These models are typically pretrained on fixed band configurations and resolutions, making them vulnerable to real world scenarios involving missing bands, cross sensor fusion, and unseen spatial scales, thereby limiting their generalization and practical deployment. To address these limitations, we propose Any Optical Model (AOM), a universal RSFM explicitly designed to accommodate arbitrary band compositions, sensor types, and resolution scales. To preserve distinctive spectral characteristics even when bands are missing or newly introduced, AOM introduces a spectrum-independent tokenizer that assigns each channel a dedicated band embedding, enabling explicit encoding of spectral identity. To effectively capture texture and contextual patterns from sub-meter to hundred-meter imagery, we design a multi-scale adaptive patch embedding mechanism that dynamically modulates the receptive field. Furthermore, to maintain global semantic consistency across varying resolutions, AOM incorporates a multi-scale semantic alignment mechanism alongside a channel-wise self-supervised masking and reconstruction pretraining strategy that jointly models spectral-spatial relationships. Extensive experiments on over 10 public datasets, including those from Sentinel-2, Landsat, and HLS, demonstrate that AOM consistently achieves state-of-the-art (SOTA) performance under challenging conditions such as band missing, cross sensor, and cross resolution settings.
- Abstract(参考訳): 光衛星は、様々なバンドレイアウトと地上サンプリング距離を持ち、生態系の監視から緊急対応まで、必要な証拠を提供する。
しかし、様々な光学センサにおけるバンド構成と空間分解能の相違は、既存のリモートセンシング基礎モデル(RSFM)にとって大きな課題となっている。
これらのモデルは一般に固定バンドの構成と解像度に基づいて事前訓練されており、欠落したバンド、クロスセンサー融合、空間スケールを含む現実世界のシナリオに弱いため、一般化と実際の展開が制限される。
これらの制約に対処するために、任意のバンド構成、センサタイプ、解像度スケールに対応するように設計された汎用RSFMであるAny Optical Model (AOM)を提案する。
AOMは、バンドが欠落したり新しく導入されたりしても、特徴的なスペクトル特性を維持するために、各チャネルに専用のバンド埋め込みを割り当てるスペクトル非依存のトークン化器を導入し、スペクトルアイデンティティの明示的な符号化を可能にする。
サブメーターから100メートル画像までのテクスチャやテクスチャのパターンを効果的に把握するために,受容場を動的に変調するマルチスケール適応型パッチ埋め込み機構を設計する。
さらに、様々な解像度でグローバルな意味的一貫性を維持するために、AOMは、スペクトル-空間関係を共同でモデル化するチャネルワイドの自己監督型マスキングと再構成事前学習戦略とともに、マルチスケールな意味的アライメント機構を組み込んでいる。
Sentinel-2、Landsat、HLSなど10以上の公開データセットに関する大規模な実験は、AOMがバンド不足、クロスセンサー、クロス解像度設定といった困難な条件下で、一貫して最先端(SOTA)のパフォーマンスを達成することを実証している。
関連論文リスト
- RAMEN: Resolution-Adjustable Multimodal Encoder for Earth Observation [12.826798868837557]
RAMENは解像度調整可能なマルチモーダルエンコーダで、EOデータ間で共有された視覚的表現を学習する。
多様な情報源から得られたマスク付きマルチモーダルEOデータを再構成する単一統一トランスフォーマーエンコーダを訓練する。
RAMENは、コミュニティ標準のPANGAEAベンチマークにおいて、より大きな最先端モデルを上回っている。
論文 参考訳(メタデータ) (2025-12-04T17:40:17Z) - Atomizer: Generalizing to new modalities by breaking satellite images down to a set of scalars [9.925465775310181]
既存のモデルは、固定された入力形式とモダリティ固有のエンコーダに依存しており、新しい構成を導入する際に再トレーニングを必要とする。
我々は、リモートセンシング画像をトークンの集合として表現し、それぞれがピクセルのスペクトル帯域値に対応するフレキシブルアーキテクチャであるAtomizerを紹介した。
Atomizerは標準的なモデルより優れており、様々な解像度と空間サイズで堅牢なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-06-16T14:30:37Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis [69.02751635551724]
スペクトルイメージングは、医療や都市景観の理解など、様々な領域で有望な応用を提供する。
スペクトルカメラのチャネル次元と捕獲波長のばらつきは、AI駆動方式の開発を妨げる。
本稿では,RGB,マルチスペクトル,ハイパースペクトル画像を用いたカメラ非依存表現学習モデルCARLを紹介する。
論文 参考訳(メタデータ) (2025-04-27T13:06:40Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。