論文の概要: Kernel Space Diffusion Model for Efficient Remote Sensing Pansharpening
- arxiv url: http://arxiv.org/abs/2505.18991v1
- Date: Sun, 25 May 2025 06:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.81561
- Title: Kernel Space Diffusion Model for Efficient Remote Sensing Pansharpening
- Title(参考訳): 効率的なリモートセンシングパンシャーピングのためのカーネル空間拡散モデル
- Authors: Hancong Jin, Zihan Cao, Liangjian Deng,
- Abstract要約: Kernel Space Diffusion Model (KSDiff)は、グローバルな文脈情報に富んだ畳み込みカーネルを生成するために、潜在空間における拡散プロセスを活用する新しいアプローチである。
WorldView-3、GaoFen-2、QuickBirdを含む広く使われている3つのデータセットの実験では、KSDiffの質的かつ定量的に優れた性能が示されている。
- 参考スコア(独自算出の注目度): 8.756657890124766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pansharpening is a fundamental task in remote sensing that integrates high-resolution panchromatic imagery (PAN) with low-resolution multispectral imagery (LRMS) to produce an enhanced image with both high spatial and spectral resolution. Despite significant progress in deep learning-based approaches, existing methods often fail to capture the global priors inherent in remote sensing data distributions. Diffusion-based models have recently emerged as promising solutions due to their powerful distribution mapping capabilities; however, they suffer from significant inference latency, which limits their practical applicability. In this work, we propose the Kernel Space Diffusion Model (KSDiff), a novel approach that leverages diffusion processes in a latent space to generate convolutional kernels enriched with global contextual information, thereby improving pansharpening quality while enabling faster inference. Specifically, KSDiff constructs these kernels through the integration of a low-rank core tensor generator and a unified factor generator, orchestrated by a structure-aware multi-head attention mechanism. We further introduce a two-stage training strategy tailored for pansharpening, enabling KSDiff to serve as a framework for enhancing existing pansharpening architectures. Experiments on three widely used datasets, including WorldView-3, GaoFen-2, and QuickBird, demonstrate the superior performance of KSDiff both qualitatively and quantitatively. Code will be released upon possible acceptance.
- Abstract(参考訳): パンシャーペニングは、高分解能のパンクロマトグラフィー画像(PAN)と低分解能のマルチスペクトル画像(LRMS)を統合し、高分解能と高分解能の高分解能の画像を生成するリモートセンシングの基本課題である。
ディープラーニングベースのアプローチの大幅な進歩にもかかわらず、既存の手法では、リモートセンシングデータ分布に固有のグローバルな事前情報をキャプチャできない場合が多い。
拡散モデルは最近、強力な分散マッピング機能のために有望なソリューションとして登場したが、それらは大きな推論遅延に悩まされ、実用性に制限を与えている。
本研究では,グローバルな文脈情報に富んだ畳み込みカーネルを生成するために,潜在空間における拡散プロセスを活用する新しい手法であるKernel Space Diffusion Model (KSDiff)を提案する。
具体的には、KSDiffは、低ランクコアテンソルジェネレータと、構造対応マルチヘッドアテンション機構によって構成された統一ファクタージェネレータを統合することで、これらのカーネルを構築する。
さらに、パンシャーピングに適した2段階のトレーニング戦略を導入し、KSDiffを既存のパンシャーピングアーキテクチャを拡張するためのフレームワークとして利用できるようにする。
WorldView-3、GaoFen-2、QuickBirdを含む広く使われている3つのデータセットの実験では、KSDiffの質的かつ定量的に優れた性能が示されている。
コードは、可能なら、リリースされます。
関連論文リスト
- A Fusion-Guided Inception Network for Hyperspectral Image Super-Resolution [4.487807378174191]
我々はFusion-Guided Inception Network (FGIN)と呼ばれる単一画像の超解像モデルを提案する。
具体的には、まずスペクトル空間融合モジュールを用いて、スペクトル情報と空間情報を効果的に統合する。
インセプションのような階層的特徴抽出戦略は、マルチスケール空間依存をキャプチャするために用いられる。
再構成品質をさらに向上するため,バイリニアと奥行き分離可能な畳み込みを組み合わせた最適化されたアップサンプリングモジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-05-06T11:15:59Z) - C2D-ISR: Optimizing Attention-based Image Super-resolution from Continuous to Discrete Scales [6.700548615812325]
我々は、注目に基づく画像超解像モデルの最適化のための新しいフレームワーク、textbfC2D-ISRを提案する。
このアプローチは、2段階のトレーニング手法と階層的なエンコーディング機構に基づいている。
さらに,既存のアテンションベースネットワーク構造を用いて階層符号化機構を一般化する。
論文 参考訳(メタデータ) (2025-03-17T21:52:18Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - SSDiff: Spatial-spectral Integrated Diffusion Model for Remote Sensing Pansharpening [14.293042131263924]
本稿では,空間スペクトル統合拡散モデルを導入し,リモートセンシングパンシャーピングタスクであるSSDiffについて述べる。
SSDiffは、パンシャルペン過程を部分空間分解の観点から、空間成分とスペクトル成分の融合過程とみなしている。
論文 参考訳(メタデータ) (2024-04-17T16:30:56Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - PC-GANs: Progressive Compensation Generative Adversarial Networks for
Pan-sharpening [50.943080184828524]
空間情報とスペクトル情報の漸進的補償によりMS画像のシャープ化を行うパンシャーピングの新しい2段階モデルを提案する。
モデル全体が三重GANで構成されており、特定のアーキテクチャに基づいて、三重GANを同時に訓練できるように、共同補償損失関数が設計されている。
論文 参考訳(メタデータ) (2022-07-29T03:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。