Fugu-MT 論文翻訳(概要): PromptSR: Cascade Prompting for Lightweight Image Super-Resolution

論文の概要: PromptSR: Cascade Prompting for Lightweight Image Super-Resolution

arxiv url: http://arxiv.org/abs/2507.04118v1
Date: Sat, 05 Jul 2025 17:56:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.023727
Title: PromptSR: Cascade Prompting for Lightweight Image Super-Resolution
Title（参考訳）: PromptSR:軽量画像超解像のためのカスケードプロンプト
Authors: Wenyang Liu, Chen Cai, Jianjun Gao, Kejun Wu, Yi Wang, Kim-Hui Yap, Lap-Pui Chau,
Abstract要約: 視覚変換器は画像超解像(SR)が大幅に進歩しているウィンドウベースの自己意識モデリングのため、限られた受容領域の固有の課題に直面している。本稿では,新しいプロンプト型軽量画像SR法であるPromptSRを提案する。
参考スコア（独自算出の注目度）: 20.796302187697364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although the lightweight Vision Transformer has significantly advanced image super-resolution (SR), it faces the inherent challenge of a limited receptive field due to the window-based self-attention modeling. The quadratic computational complexity relative to window size restricts its ability to use a large window size for expanding the receptive field while maintaining low computational costs. To address this challenge, we propose PromptSR, a novel prompt-empowered lightweight image SR method. The core component is the proposed cascade prompting block (CPB), which enhances global information access and local refinement via three cascaded prompting layers: a global anchor prompting layer (GAPL) and two local prompting layers (LPLs). The GAPL leverages downscaled features as anchors to construct low-dimensional anchor prompts (APs) through cross-scale attention, significantly reducing computational costs. These APs, with enhanced global perception, are then used to provide global prompts, efficiently facilitating long-range token connections. The two LPLs subsequently combine category-based self-attention and window-based self-attention to refine the representation in a coarse-to-fine manner. They leverage attention maps from the GAPL as additional global prompts, enabling them to perceive features globally at different granularities for adaptive local refinement. In this way, the proposed CPB effectively combines global priors and local details, significantly enlarging the receptive field while maintaining the low computational costs of our PromptSR. The experimental results demonstrate the superiority of our method, which outperforms state-of-the-art lightweight SR methods in quantitative, qualitative, and complexity evaluations. Our code will be released at https://github.com/wenyang001/PromptSR.
Abstract（参考訳）: 軽量のVision Transformerは、画像超解像(SR)が大幅に進歩しているが、ウィンドウベースの自己認識モデリングのため、限られた受容領域の固有の課題に直面している。ウィンドウサイズに対する2次計算の複雑さは、低い計算コストを維持しながら、受容領域を拡張するために大きなウィンドウサイズを使用する能力を制限する。この課題に対処するために,新しいプロンプト型軽量画像SR法であるPromptSRを提案する。コアコンポーネントは提案したカスケードプロンプトブロック(CPB)であり,グローバルアンカープロンプト層(GAPL)と2つのローカルプロンプト層(LPL)という3つのケースケードプロンプト層を通じて,グローバル情報アクセスとローカルリフレクションを強化する。 GAPLは、低次元アンカープロンプト(AP)を構築するためにアンカーとしてダウンスケール機能を活用し、計算コストを大幅に削減する。これらのAPは、グローバルな知覚を増強し、グローバルなプロンプトを提供するために使用され、長距離トークン接続を効率的に促進する。 2つのLPLはその後、カテゴリーベースの自己意図とウィンドウベースの自己意図を組み合わせて、粗い方法で表現を洗練させる。彼らはGAPLからの注意マップをさらなるグローバルなプロンプトとして活用し、適応的な局所的な洗練のために異なる粒度の特徴を世界規模で知覚することができる。このようにして、提案したCPBは、グローバルな先行と局所的な詳細を効果的に組み合わせ、 PromptSRの低計算コストを維持しながら、受容領域を大幅に拡大する。実験結果から,最先端の軽量SR法を定量的,定性的,複雑度評価で上回る手法として,本手法の優位性を示した。私たちのコードはhttps://github.com/wenyang001/PromptSR.comでリリースされます。

関連論文リスト

Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文参考訳（メタデータ） (2025-05-22T02:57:23Z)
CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution [42.76046559103463]
Image Super-Resolution (SR)のような低レベル視覚タスクにおいて、トランスフォーマーベースの手法は印象的な性能を示した。これらの手法は、コンテンツに依存しない局所領域への注意を制限し、長距離依存性をキャプチャする注意力を直接制限する。本稿では,これらの問題に対処する軽量なコンテンツ対応トークン集約ネットワーク(CATANet)を提案する。提案手法はPSNRを最大0.33dB、推論速度をほぼ2倍に向上させる。
論文参考訳（メタデータ） (2025-03-10T04:00:27Z)
A Lightweight and Effective Image Tampering Localization Network with Vision Mamba [5.369780585789917]
現在の画像改ざん手法は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに依存している。視覚的マンバ(ForMa)をベースとした,視覚障害者の視覚的触覚ローカライゼーションのための軽量かつ効果的なフォレストネットワークを提案する。
論文参考訳（メタデータ） (2025-02-14T06:35:44Z)
HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts [77.62320553269615]
HiPromptは高解像度画像生成のためのチューニング不要のソリューションである。階層的なプロンプトはグローバルとローカルの両方のガイダンスを提供する生成された画像は、高定義のコヒーレントな局所的および大域的意味論、構造、テクスチャを保持する。
論文参考訳（メタデータ） (2024-09-04T17:58:08Z)
HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文参考訳（メタデータ） (2024-07-08T12:42:10Z)
Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文参考訳（メタデータ） (2024-05-08T11:09:24Z)
Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文参考訳（メタデータ） (2023-10-08T06:10:09Z)
Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文参考訳（メタデータ） (2023-03-11T10:44:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。