論文の概要: PromptSR: Cascade Prompting for Lightweight Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2507.04118v1
- Date: Sat, 05 Jul 2025 17:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.023727
- Title: PromptSR: Cascade Prompting for Lightweight Image Super-Resolution
- Title(参考訳): PromptSR:軽量画像超解像のためのカスケードプロンプト
- Authors: Wenyang Liu, Chen Cai, Jianjun Gao, Kejun Wu, Yi Wang, Kim-Hui Yap, Lap-Pui Chau,
- Abstract要約: 視覚変換器は画像超解像(SR)が大幅に進歩している
ウィンドウベースの自己意識モデリングのため、限られた受容領域の固有の課題に直面している。
本稿では,新しいプロンプト型軽量画像SR法であるPromptSRを提案する。
- 参考スコア(独自算出の注目度): 20.796302187697364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the lightweight Vision Transformer has significantly advanced image super-resolution (SR), it faces the inherent challenge of a limited receptive field due to the window-based self-attention modeling. The quadratic computational complexity relative to window size restricts its ability to use a large window size for expanding the receptive field while maintaining low computational costs. To address this challenge, we propose PromptSR, a novel prompt-empowered lightweight image SR method. The core component is the proposed cascade prompting block (CPB), which enhances global information access and local refinement via three cascaded prompting layers: a global anchor prompting layer (GAPL) and two local prompting layers (LPLs). The GAPL leverages downscaled features as anchors to construct low-dimensional anchor prompts (APs) through cross-scale attention, significantly reducing computational costs. These APs, with enhanced global perception, are then used to provide global prompts, efficiently facilitating long-range token connections. The two LPLs subsequently combine category-based self-attention and window-based self-attention to refine the representation in a coarse-to-fine manner. They leverage attention maps from the GAPL as additional global prompts, enabling them to perceive features globally at different granularities for adaptive local refinement. In this way, the proposed CPB effectively combines global priors and local details, significantly enlarging the receptive field while maintaining the low computational costs of our PromptSR. The experimental results demonstrate the superiority of our method, which outperforms state-of-the-art lightweight SR methods in quantitative, qualitative, and complexity evaluations. Our code will be released at https://github.com/wenyang001/PromptSR.
- Abstract(参考訳): 軽量のVision Transformerは、画像超解像(SR)が大幅に進歩しているが、ウィンドウベースの自己認識モデリングのため、限られた受容領域の固有の課題に直面している。
ウィンドウサイズに対する2次計算の複雑さは、低い計算コストを維持しながら、受容領域を拡張するために大きなウィンドウサイズを使用する能力を制限する。
この課題に対処するために,新しいプロンプト型軽量画像SR法であるPromptSRを提案する。
コアコンポーネントは提案したカスケードプロンプトブロック(CPB)であり,グローバルアンカープロンプト層(GAPL)と2つのローカルプロンプト層(LPL)という3つのケースケードプロンプト層を通じて,グローバル情報アクセスとローカルリフレクションを強化する。
GAPLは、低次元アンカープロンプト(AP)を構築するためにアンカーとしてダウンスケール機能を活用し、計算コストを大幅に削減する。
これらのAPは、グローバルな知覚を増強し、グローバルなプロンプトを提供するために使用され、長距離トークン接続を効率的に促進する。
2つのLPLはその後、カテゴリーベースの自己意図とウィンドウベースの自己意図を組み合わせて、粗い方法で表現を洗練させる。
彼らはGAPLからの注意マップをさらなるグローバルなプロンプトとして活用し、適応的な局所的な洗練のために異なる粒度の特徴を世界規模で知覚することができる。
このようにして、提案したCPBは、グローバルな先行と局所的な詳細を効果的に組み合わせ、 PromptSRの低計算コストを維持しながら、受容領域を大幅に拡大する。
実験結果から,最先端の軽量SR法を定量的,定性的,複雑度評価で上回る手法として,本手法の優位性を示した。
私たちのコードはhttps://github.com/wenyang001/PromptSR.comでリリースされます。
関連論文リスト
- Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。
軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:57:23Z) - HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts [77.62320553269615]
HiPromptは高解像度画像生成のためのチューニング不要のソリューションである。
階層的なプロンプトは グローバルとローカルの両方のガイダンスを提供する
生成された画像は、高定義のコヒーレントな局所的および大域的意味論、構造、テクスチャを保持する。
論文 参考訳(メタデータ) (2024-09-04T17:58:08Z) - HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文 参考訳(メタデータ) (2024-07-08T12:42:10Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。