論文の概要: Leveraging Large-Scale Pretrained Spatial-Spectral Priors for General Zero-Shot Pansharpening
- arxiv url: http://arxiv.org/abs/2512.02643v1
- Date: Tue, 02 Dec 2025 10:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.835492
- Title: Leveraging Large-Scale Pretrained Spatial-Spectral Priors for General Zero-Shot Pansharpening
- Title(参考訳): 汎用ゼロショットパンシャーペニングのための大規模事前訓練型空間スペクトルプライオリティの活用
- Authors: Yongchuan Cui, Peng Liu, Yi Zeng,
- Abstract要約: リモートセンシング画像融合のための既存のディープラーニング手法は、目に見えないデータセットに適用した場合、しばしば一般化の貧弱さに悩まされる。
本研究では,大規模なシミュレーションデータセットを活用して,頑健な空間スペクトル前処理を学習する,新しい事前学習戦略を提案する。
事前訓練されたモデルはゼロショットシナリオにおいて優れた結果が得られ、ワンショット設定における最小の実データによる顕著な適応能力を示す。
- 参考スコア(独自算出の注目度): 7.37033839561317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deep learning methods for remote sensing image fusion often suffer from poor generalization when applied to unseen datasets due to the limited availability of real training data and the domain gap between different satellite sensors. To address this challenge, we explore the potential of foundation models by proposing a novel pretraining strategy that leverages large-scale simulated datasets to learn robust spatial-spectral priors. Specifically, our approach first constructs diverse simulated datasets by applying various degradation operations (blur, noise, downsampling) and augmentations (bands generation, channel shuffling, high-pass filtering, color jittering, etc.) to natural images from ImageNet and remote sensing images from SkyScript. We then pretrain fusion models on these simulated data to learn generalizable spatial-spectral representations. The pretrained models are subsequently evaluated on six datasets (WorldView-2/3/4, IKONOS, QuickBird, GaoFen-2) using zero-shot and one-shot paradigms, with both full- and freeze-tuning approaches for fine-tuning. Extensive experiments on different network architectures including convolutional neural networks, Transformer, and Mamba demonstrate that our pretraining strategy significantly improves generalization performance across different satellite sensors and imaging conditions for various fusion models. The pretrained models achieve superior results in zero-shot scenarios and show remarkable adaptation capability with minimal real data in one-shot settings. Our work provides a practical solution for cross-domain pansharpening, establishes a new benchmark for generalization in remote sensing image fusion tasks, and paves the way for leveraging foundation models through advanced training strategies.
- Abstract(参考訳): リモートセンシング画像融合のための既存のディープラーニング手法は、実際のトレーニングデータの可用性の制限と異なる衛星センサー間のドメインギャップのため、目に見えないデータセットに適用する場合、一般化が不十分な場合が多い。
この課題に対処するために、我々は、大規模シミュレーションデータセットを活用して堅牢な空間スペクトル事前学習を行う新しい事前学習戦略を提案し、基礎モデルの可能性を探る。
具体的には、まず、ImageNetの自然画像とSkyScriptのリモートセンシング画像に、さまざまな劣化操作(ブルー、ノイズ、ダウンサンプリング)と拡張(バンド生成、チャネルシャッフル、ハイパスフィルタリング、カラージッタリングなど)を適用することで、多様なシミュレーションデータセットを構築する。
次に、これらのシミュレーションデータ上の融合モデルを事前訓練し、一般化可能な空間スペクトル表現を学習する。
その後、事前トレーニングされたモデルは、ゼロショットとワンショットのパラダイムを使用して、6つのデータセット(WorldView-2/3/4、IKONOS、QuickBird、GaoFen-2)で評価される。
畳み込みニューラルネットワーク、Transformer、Mambaなど、さまざまなネットワークアーキテクチャに関する大規模な実験により、我々の事前学習戦略は、異なる衛星センサ間の一般化性能と、様々な融合モデルの撮像条件を著しく改善することを示した。
事前訓練されたモデルはゼロショットシナリオにおいて優れた結果が得られ、ワンショット設定における最小の実データによる顕著な適応能力を示す。
我々の研究は、クロスドメイン・パンシャーピングのための実用的なソリューションを提供し、リモートセンシング画像融合タスクの一般化のための新しいベンチマークを確立し、高度なトレーニング戦略を通じて基礎モデルを活用するための道を開く。
関連論文リスト
- FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - SatVision-TOA: A Geospatial Foundation Model for Coarse-Resolution All-Sky Remote Sensing Imagery [8.096413986108601]
本稿では,14バンドMODIS L1B Top-Of-Atmosphere (TOA) を用いた新しい基礎モデルであるSatVision-TOAを紹介する。
SatVision-TOA モデルは Masked-Image-Modeling (MIM) フレームワークと SwinV2 アーキテクチャを使って事前訓練されている。
その結果、SatVision-TOAは、下流タスクのベースラインメソッドよりも優れたパフォーマンスを実現することがわかった。
論文 参考訳(メタデータ) (2024-11-26T00:08:00Z) - InfRS: Incremental Few-Shot Object Detection in Remote Sensing Images [11.916941756499435]
本稿では,リモートセンシング画像におけるインクリメンタルな数ショット物体検出の複雑な課題について検討する。
本稿では,新しい授業の漸進的な学習を促進するために,InfRSと呼ばれる先駆的な微調整技術を導入する。
我々はワッサーシュタイン距離に基づく原型校正戦略を開発し、破滅的な忘れ問題を軽減する。
論文 参考訳(メタデータ) (2024-05-18T13:39:50Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。