Fugu-MT 論文翻訳(概要): SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model

論文の概要: SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model

arxiv url: http://arxiv.org/abs/2505.23010v1
Date: Thu, 29 May 2025 02:38:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.63035
Title: SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model
Title（参考訳）: SeG-SR:視覚言語モデルによるリモートセンシング画像超解法へのセマンティック知識の統合
Authors: Bowen Chen, Keyan Chen, Mohan Yang, Zhengxia Zou, Zhenwei Shi,
Abstract要約: 高解像度(HR)リモートセンシング画像は、都市計画や環境モニタリングなど幅広い用途において重要な役割を担っている。センサーやデータ転送リンクの制限により、実際に取得された画像は分解能の低下に悩まされることが多い。 RSISR(Remote Sensing Image Super-Resolution)は、ローレゾリューション(LR)入力からHRイメージを再構築することを目的としており、直接HR画像を取得するためのコスト効率の良い代替手段を提供する。
参考スコア（独自算出の注目度）: 23.383837540690823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-resolution (HR) remote sensing imagery plays a vital role in a wide range of applications, including urban planning and environmental monitoring. However, due to limitations in sensors and data transmission links, the images acquired in practice often suffer from resolution degradation. Remote Sensing Image Super-Resolution (RSISR) aims to reconstruct HR images from low-resolution (LR) inputs, providing a cost-effective and efficient alternative to direct HR image acquisition. Existing RSISR methods primarily focus on low-level characteristics in pixel space, while neglecting the high-level understanding of remote sensing scenes. This may lead to semantically inconsistent artifacts in the reconstructed results. Motivated by this observation, our work aims to explore the role of high-level semantic knowledge in improving RSISR performance. We propose a Semantic-Guided Super-Resolution framework, SeG-SR, which leverages Vision-Language Models (VLMs) to extract semantic knowledge from input images and uses it to guide the super resolution (SR) process. Specifically, we first design a Semantic Feature Extraction Module (SFEM) that utilizes a pretrained VLM to extract semantic knowledge from remote sensing images. Next, we propose a Semantic Localization Module (SLM), which derives a series of semantic guidance from the extracted semantic knowledge. Finally, we develop a Learnable Modulation Module (LMM) that uses semantic guidance to modulate the features extracted by the SR network, effectively incorporating high-level scene understanding into the SR pipeline. We validate the effectiveness and generalizability of SeG-SR through extensive experiments: SeG-SR achieves state-of-the-art performance on two datasets and consistently delivers performance improvements across various SR architectures. Codes can be found at https://github.com/Mr-Bamboo/SeG-SR.
Abstract（参考訳）: 高解像度(HR)リモートセンシング画像は、都市計画や環境モニタリングなど幅広い用途において重要な役割を担っている。しかし、センサーやデータ転送リンクの制限により、実際に取得された画像は分解能の低下に悩まされることが多い。 RSISR(Remote Sensing Image Super-Resolution)は、ローレゾリューション(LR)入力からHRイメージを再構築することを目的としており、直接HR画像を取得するためのコスト効率の良い代替手段を提供する。既存のRSISR法は主に、リモートセンシングシーンの高レベル理解を無視しながら、ピクセル空間の低レベル特性に焦点を当てている。これは、再建された結果に意味的に矛盾した成果をもたらす可能性がある。本研究の目的は,RSISRの性能向上におけるハイレベルな意味知識の役割を探ることである。本稿では、視覚言語モデル(VLM)を利用して、入力画像から意味的知識を抽出し、それを超解法(SR)プロセスの導出に用いるセマンティックガイド型超解法フレームワークSeG-SRを提案する。具体的には、予め訓練されたVLMを用いて、リモートセンシング画像から意味知識を抽出するセマンティック特徴抽出モジュール(SFEM)を設計する。次に、抽出したセマンティックな知識から一連のセマンティックなガイダンスを導出するセマンティック・ローカライゼーション・モジュール(SLM)を提案する。最後に,SR ネットワークによって抽出された特徴を意味的ガイダンスを用いて調整し,SR パイプラインに高レベルなシーン理解を効果的に組み込むLearningable Modulation Module (LMM) を開発した。 SeG-SRは2つのデータセット上で最先端のパフォーマンスを達成し、様々なSRアーキテクチャで継続的に性能改善を実現します。コードはhttps://github.com/Mr-Bamboo/SeG-SRで見ることができる。

関連論文リスト

HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation [74.1872891313184]
HRSegは高精細な知覚を持つ効率的なモデルである。高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新を特徴としている。
論文参考訳（メタデータ） (2025-07-17T08:09:31Z)
GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing [5.653111274028541]
リモートセンシングのための汎用大規模モデルフレームワークGeoMagを提案する。 GeoMagは、リモートセンシング画像解析を効果的に行うために、プロンプトセマンティクスに基づく注意範囲に焦点を当てる。このアプローチは、重要なターゲット領域に対するモデルの認識を改善し、背景冗長性を抑え、高分解能RS画像の解釈の計算コストを削減する。
論文参考訳（メタデータ） (2025-07-08T11:21:03Z)
Controllable Reference-Based Real-World Remote Sensing Image Super-Resolution with Generative Diffusion Priors [13.148815217684277]
超高分解能(SR)技術は、低分解能(LR)画像を用いて高分解能(HR)画像を再構成することにより、リモートセンシング画像の空間分解能を高めることができる。既存のRefSR手法は、クロスセンサーの解像度ギャップや重要な土地被覆の変化など、現実世界の複雑さに苦しむ。実世界のリモートセンシング画像SRのための新しい制御可能な参照ベース拡散モデルであるCRefDiffを提案する。
論文参考訳（メタデータ） (2025-06-30T12:45:28Z)
DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2025-06-23T02:38:56Z)
ImageRAG: Enhancing Ultra High Resolution Remote Sensing Imagery Analysis with ImageRAG [33.19843463374473]
ImageRAGは、UHRリモートセンシング画像の解析の複雑さに対処する、トレーニング不要のフレームワークである。 ImageRAGのコアイノベーションは、UHRイメージの最も関連性の高い部分を視覚的コンテキストとして選択的に検索し、焦点を合わせる能力にある。
論文参考訳（メタデータ） (2024-11-12T10:12:12Z)
Semantic Guided Large Scale Factor Remote Sensing Image Super-resolution with Generative Diffusion Prior [13.148815217684277]
大規模因子超解像(SR)アルゴリズムは、軌道から取得した低解像度(LR)衛星データの最大化に不可欠である。既存の手法では、鮮明なテクスチャと正しい接地オブジェクトでSR画像を復元する際の課題に直面している。本稿では,大規模リモートセンシング画像の超解像を実現するための新しいフレームワークであるセマンティックガイド拡散モデル(SGDM)を提案する。
論文参考訳（メタデータ） (2024-05-11T16:06:16Z)
RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。 RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文参考訳（メタデータ） (2024-04-03T12:06:01Z)
Bridging the Domain Gap: A Simple Domain Matching Method for Reference-based Image Super-Resolution in Remote Sensing [8.36527949191506]
近年、参照ベース画像超解像(RefSR)は、画像超解像(SR)タスクにおいて優れた性能を示している。既存のRefSRモデルとシームレスに統合可能なドメインマッチング(DM)モジュールを導入する。我々の分析では、これらの領域のギャップは異なる衛星でしばしば生じており、我々のモデルはこれらの課題に効果的に対処している。
論文参考訳（メタデータ） (2024-01-29T08:10:00Z)
CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文参考訳（メタデータ） (2023-11-27T16:33:29Z)
Learning Detail-Structure Alternative Optimization for Blind Super-Resolution [69.11604249813304]
そこで我々は,ブラインドSRに先立ってカーネルを曖昧にすることなく,再帰的な詳細構造代替最適化を実現する,有効かつカーネルフリーなネットワークDSSRを提案する。 DSSRでは、細部構造変調モジュール(DSMM)が構築され、画像の詳細と構造の相互作用と協調を利用する。本手法は既存の手法に対して最先端の手法を実現する。
論文参考訳（メタデータ） (2022-12-03T14:44:17Z)
RRSR:Reciprocal Reference-based Image Super-Resolution with Progressive Feature Alignment and Selection [66.08293086254851]
本稿では,RefSRネットワークの学習を強化するための相互学習フレームワークを提案する。新たに提案したモジュールは,マルチスケールの特徴空間に参照入力画像をアライメントし,参照認識機能の選択を行う。我々は,最近のRefSRモデルが相互学習パラダイムによって一貫した改善が可能であることを実証的に示す。
論文参考訳（メタデータ） (2022-11-08T12:39:35Z)
Memory-augmented Deep Unfolding Network for Guided Image Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。 HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文参考訳（メタデータ） (2022-02-12T15:37:13Z)
DDet: Dual-path Dynamic Enhancement Network for Real-World Image Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文参考訳（メタデータ） (2020-02-25T18:24:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。