論文の概要: SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model
- arxiv url: http://arxiv.org/abs/2505.23010v1
- Date: Thu, 29 May 2025 02:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.63035
- Title: SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model
- Title(参考訳): SeG-SR:視覚言語モデルによるリモートセンシング画像超解法へのセマンティック知識の統合
- Authors: Bowen Chen, Keyan Chen, Mohan Yang, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: 高解像度(HR)リモートセンシング画像は、都市計画や環境モニタリングなど幅広い用途において重要な役割を担っている。
センサーやデータ転送リンクの制限により、実際に取得された画像は分解能の低下に悩まされることが多い。
RSISR(Remote Sensing Image Super-Resolution)は、ローレゾリューション(LR)入力からHRイメージを再構築することを目的としており、直接HR画像を取得するためのコスト効率の良い代替手段を提供する。
- 参考スコア(独自算出の注目度): 23.383837540690823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution (HR) remote sensing imagery plays a vital role in a wide range of applications, including urban planning and environmental monitoring. However, due to limitations in sensors and data transmission links, the images acquired in practice often suffer from resolution degradation. Remote Sensing Image Super-Resolution (RSISR) aims to reconstruct HR images from low-resolution (LR) inputs, providing a cost-effective and efficient alternative to direct HR image acquisition. Existing RSISR methods primarily focus on low-level characteristics in pixel space, while neglecting the high-level understanding of remote sensing scenes. This may lead to semantically inconsistent artifacts in the reconstructed results. Motivated by this observation, our work aims to explore the role of high-level semantic knowledge in improving RSISR performance. We propose a Semantic-Guided Super-Resolution framework, SeG-SR, which leverages Vision-Language Models (VLMs) to extract semantic knowledge from input images and uses it to guide the super resolution (SR) process. Specifically, we first design a Semantic Feature Extraction Module (SFEM) that utilizes a pretrained VLM to extract semantic knowledge from remote sensing images. Next, we propose a Semantic Localization Module (SLM), which derives a series of semantic guidance from the extracted semantic knowledge. Finally, we develop a Learnable Modulation Module (LMM) that uses semantic guidance to modulate the features extracted by the SR network, effectively incorporating high-level scene understanding into the SR pipeline. We validate the effectiveness and generalizability of SeG-SR through extensive experiments: SeG-SR achieves state-of-the-art performance on two datasets and consistently delivers performance improvements across various SR architectures. Codes can be found at https://github.com/Mr-Bamboo/SeG-SR.
- Abstract(参考訳): 高解像度(HR)リモートセンシング画像は、都市計画や環境モニタリングなど幅広い用途において重要な役割を担っている。
しかし、センサーやデータ転送リンクの制限により、実際に取得された画像は分解能の低下に悩まされることが多い。
RSISR(Remote Sensing Image Super-Resolution)は、ローレゾリューション(LR)入力からHRイメージを再構築することを目的としており、直接HR画像を取得するためのコスト効率の良い代替手段を提供する。
既存のRSISR法は主に、リモートセンシングシーンの高レベル理解を無視しながら、ピクセル空間の低レベル特性に焦点を当てている。
これは、再建された結果に意味的に矛盾した成果をもたらす可能性がある。
本研究の目的は,RSISRの性能向上におけるハイレベルな意味知識の役割を探ることである。
本稿では、視覚言語モデル(VLM)を利用して、入力画像から意味的知識を抽出し、それを超解法(SR)プロセスの導出に用いるセマンティックガイド型超解法フレームワークSeG-SRを提案する。
具体的には、予め訓練されたVLMを用いて、リモートセンシング画像から意味知識を抽出するセマンティック特徴抽出モジュール(SFEM)を設計する。
次に、抽出したセマンティックな知識から一連のセマンティックなガイダンスを導出するセマンティック・ローカライゼーション・モジュール(SLM)を提案する。
最後に,SR ネットワークによって抽出された特徴を意味的ガイダンスを用いて調整し,SR パイプラインに高レベルなシーン理解を効果的に組み込むLearningable Modulation Module (LMM) を開発した。
SeG-SRは2つのデータセット上で最先端のパフォーマンスを達成し、様々なSRアーキテクチャで継続的に性能改善を実現します。
コードはhttps://github.com/Mr-Bamboo/SeG-SRで見ることができる。
関連論文リスト
- ImageRAG: Enhancing Ultra High Resolution Remote Sensing Imagery Analysis with ImageRAG [33.19843463374473]
ImageRAGは、UHRリモートセンシング画像の解析の複雑さに対処する、トレーニング不要のフレームワークである。
ImageRAGのコアイノベーションは、UHRイメージの最も関連性の高い部分を視覚的コンテキストとして選択的に検索し、焦点を合わせる能力にある。
論文 参考訳(メタデータ) (2024-11-12T10:12:12Z) - Semantic Guided Large Scale Factor Remote Sensing Image Super-resolution with Generative Diffusion Prior [13.148815217684277]
大規模因子超解像(SR)アルゴリズムは、軌道から取得した低解像度(LR)衛星データの最大化に不可欠である。
既存の手法では、鮮明なテクスチャと正しい接地オブジェクトでSR画像を復元する際の課題に直面している。
本稿では,大規模リモートセンシング画像の超解像を実現するための新しいフレームワークであるセマンティックガイド拡散モデル(SGDM)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:06:16Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Bridging the Domain Gap: A Simple Domain Matching Method for
Reference-based Image Super-Resolution in Remote Sensing [8.36527949191506]
近年、参照ベース画像超解像(RefSR)は、画像超解像(SR)タスクにおいて優れた性能を示している。
既存のRefSRモデルとシームレスに統合可能なドメインマッチング(DM)モジュールを導入する。
我々の分析では、これらの領域のギャップは異なる衛星でしばしば生じており、我々のモデルはこれらの課題に効果的に対処している。
論文 参考訳(メタデータ) (2024-01-29T08:10:00Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Learning Detail-Structure Alternative Optimization for Blind
Super-Resolution [69.11604249813304]
そこで我々は,ブラインドSRに先立ってカーネルを曖昧にすることなく,再帰的な詳細構造代替最適化を実現する,有効かつカーネルフリーなネットワークDSSRを提案する。
DSSRでは、細部構造変調モジュール(DSMM)が構築され、画像の詳細と構造の相互作用と協調を利用する。
本手法は既存の手法に対して最先端の手法を実現する。
論文 参考訳(メタデータ) (2022-12-03T14:44:17Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。