論文の概要: Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark
- arxiv url: http://arxiv.org/abs/2603.00543v1
- Date: Sat, 28 Feb 2026 08:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.253079
- Title: Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark
- Title(参考訳): ScaleFormerとPanScaleベンチマークによるクロススケールパンシャーピング
- Authors: Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang,
- Abstract要約: パンシャルペニングは、低分解能MSデータのスペクトル富度とパンクロマティック画像の空間的詳細を融合することにより、高分解能マルチスペクトル画像を生成することを目的としている。
既存の手法は制限された低解像度設定で評価され、その一般化を現実の高解像度シナリオに限定する。
さまざまな解像度とスケールの一般化を評価するベンチマークであるPanScale-Benchを伴って,最初の大規模でクロススケールなパンシャーピングデータセットであるPanScaleを紹介した。
- 参考スコア(独自算出の注目度): 39.78977567741962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pansharpening aims to generate high-resolution multi-spectral images by fusing the spatial detail of panchromatic images with the spectral richness of low-resolution MS data. However, most existing methods are evaluated under limited, low-resolution settings, limiting their generalization to real-world, high-resolution scenarios. To bridge this gap, we systematically investigate the data, algorithmic, and computational challenges of cross-scale pansharpening. We first introduce PanScale, the first large-scale, cross-scale pansharpening dataset, accompanied by PanScale-Bench, a comprehensive benchmark for evaluating generalization across varying resolutions and scales. To realize scale generalization, we propose ScaleFormer, a novel architecture designed for multi-scale pansharpening. ScaleFormer reframes generalization across image resolutions as generalization across sequence lengths: it tokenizes images into patch sequences of the same resolution but variable length proportional to image scale. A Scale-Aware Patchify module enables training for such variations from fixed-size crops. ScaleFormer then decouples intra-patch spatial feature learning from inter-patch sequential dependency modeling, incorporating Rotary Positional Encoding to enhance extrapolation to unseen scales. Extensive experiments show that our approach outperforms SOTA methods in fusion quality and cross-scale generalization. The datasets and source code are available upon acceptance.
- Abstract(参考訳): パンシャルペニングは、低分解能MSデータのスペクトル富度とパンクロマティック画像の空間的詳細を融合することにより、高分解能マルチスペクトル画像を生成することを目的としている。
しかし、既存のほとんどの手法は制限された低解像度設定で評価され、その一般化は現実の高解像度シナリオに制限される。
このギャップを埋めるために、我々は、クロススケールパンシャーピングにおけるデータ、アルゴリズム、および計算上の課題を体系的に調査する。
最初にPanScaleを紹介した。PanScale-Benchとともに、さまざまな解像度とスケールの一般化を評価するための総合的なベンチマークである。
スケール一般化を実現するために,マルチスケールパンシャーピング用に設計された新しいアーキテクチャであるScaleFormerを提案する。
ScaleFormerは、画像解像度の一般化を、シーケンス長の一般化として再設定する:同じ解像度のパッチシーケンスに、イメージスケールに比例する可変長をトークン化する。
Scale-Aware Patchifyモジュールは、固定サイズの作物からこのようなバリエーションのトレーニングを可能にする。
次にScaleFormerは、パッチ間のシーケンシャルな依存性モデリングから、パッチ内の空間的特徴学習を分離し、ロータリー位置エンコーディングを取り入れて、目に見えないスケールへの外挿を強化する。
大規模な実験により, 核融合におけるSOTA法よりも高い評価が得られた。
データセットとソースコードは受理時に入手できる。
関連論文リスト
- Universal Pansharpening Foundation Model [67.10467574892282]
高分解能マルチスペクトル(MS)画像は、テクスチャリッチパンクロマティック(PAN)画像と低分解能MS画像からのスペクトル特性から空間的詳細を統合することで生成する。
本稿では,衛星非依存およびシーンロバスト融合のための普遍的パンシャーピング基盤モデルFoundPSを提案する。
論文 参考訳(メタデータ) (2026-03-04T08:30:15Z) - Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Image Segmentation [26.667974865352708]
MROVSegは、オープンボキャブラリイメージセグメンテーションのためのマルチレゾリューショントレーニングフレームワークで、単一の事前トレーニングされたCLIPバックボーンを備えている。
スライドウィンドウを使用して、高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズにマッチする。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - Learning Images Across Scales Using Adversarial Training [64.59447233902735]
本研究では,通常の画像の非構造的コレクションからマグニチュード・オブ・マグニチュード・スケールを捉える表現を学習するための新しいパラダイムを考案する。
筆者らのジェネレータは,マルチスケール生成モデルとして利用でき,非構造化パッチからのスケール空間の再構成にも利用できることを示す。
論文 参考訳(メタデータ) (2024-06-13T08:44:12Z) - HeightFormer: A Multilevel Interaction and Image-adaptive
Classification-regression Network for Monocular Height Estimation with Aerial
Images [10.716933766055755]
本稿では,リモートセンシングにおける単分子高さ推定のための総合解を提案する。
マルチレベルインタラクションバックボーン(MIB)と画像適応型分類-回帰ハイトジェネレータ(ICG)を備えている。
ICGは各画像の高さ分割を動的に生成し、従来の回帰タスクを再設定する。
論文 参考訳(メタデータ) (2023-10-12T02:49:00Z) - Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial
Representation Learning [55.762840052788945]
本研究では,異なるスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。
その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。
論文 参考訳(メタデータ) (2022-12-30T03:15:34Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Learning deep multiresolution representations for pansharpening [4.469255274378329]
本稿では,異なるスケールでスペクトル特性と空間特性を保持するピラミッド型深層融合フレームワークを提案する。
実験により,提案手法はアートパンシャープニングモデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2021-02-16T19:41:57Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。