論文の概要: Activating Wider Areas in Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2403.08330v1
- Date: Wed, 13 Mar 2024 08:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:16:12.805088
- Title: Activating Wider Areas in Image Super-Resolution
- Title(参考訳): 画像超解像における広い領域の活性化
- Authors: Cheng Cheng, Hang Wang, Hongbin Sun
- Abstract要約: Vision Mamba (Vim)は、対応する高解像度画像を再構成する最も関連性の高い、代表的な入力ピクセルを見つけることができる。
MMAは最先端のSISR法と比較して、競争力や性能に優れる。
- 参考スコア(独自算出の注目度): 23.52183937294807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of convolution neural networks (CNNs) and vision transformers
(ViTs) has markedly revolutionized the area of single-image super-resolution
(SISR). To further boost the SR performances, several techniques, such as
residual learning and attention mechanism, are introduced, which can be largely
attributed to a wider range of activated area, that is, the input pixels that
strongly influence the SR results. However, the possibility of further
improving SR performance through another versatile vision backbone remains an
unresolved challenge. To address this issue, in this paper, we unleash the
representation potential of the modern state space model, i.e., Vision Mamba
(Vim), in the context of SISR. Specifically, we present three recipes for
better utilization of Vim-based models: 1) Integration into a MetaFormer-style
block; 2) Pre-training on a larger and broader dataset; 3) Employing
complementary attention mechanism, upon which we introduce the MMA. The
resulting network MMA is capable of finding the most relevant and
representative input pixels to reconstruct the corresponding high-resolution
images. Comprehensive experimental analysis reveals that MMA not only achieves
competitive or even superior performance compared to state-of-the-art SISR
methods but also maintains relatively low memory and computational overheads
(e.g., +0.5 dB PSNR elevation on Manga109 dataset with 19.8 M parameters at the
scale of 2). Furthermore, MMA proves its versatility in lightweight SR
applications. Through this work, we aim to illuminate the potential
applications of state space models in the broader realm of image processing
rather than SISR, encouraging further exploration in this innovative direction.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の流行は、シングルイメージ超解像(SISR)の領域を大きく革命させた。
SR性能をさらに向上させるために、残差学習やアテンション機構などのいくつかの技術を導入し、SR結果に強く影響を与える入力画素である、より広い範囲の活性化領域に大きく寄与する。
しかし、他の汎用視覚バックボーンによるSR性能をさらに改善する可能性は未解決の課題である。
この問題に対処するため、本稿では、現代の状態空間モデル、すなわちビジョン・マンバ(Vim)の表現ポテンシャルをSISRの文脈で解き放つ。
具体的には、Vimベースのモデルをよりよく活用するためのレシピを3つ提示する。
1) MetaFormerスタイルブロックへの統合
2) 大規模で広範なデータセットの事前学習
3)MMAを取り入れた補完的注意機構を取り入れた。
得られたネットワークMMAは、対応する高解像度画像を再構成する最も関連性の高い、代表的な入力画素を見つけることができる。
総合的な実験分析により、MMAは最先端のSISR法と比較して競争力や優れた性能を達成するだけでなく、比較的低いメモリと計算オーバーヘッド(例: +0.5 dB PSNRのManga109データセットにおける19.8Mパラメータの上昇)も維持していることが明らかとなった。
さらに、MMAは軽量SRアプリケーションにおいてその汎用性を証明している。
本研究は、SISRよりも広い領域の画像処理において、状態空間モデルの潜在的な応用を照明することを目的としており、この革新的な方向のさらなる探索を奨励している。
関連論文リスト
- Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - DVMSR: Distillated Vision Mamba for Efficient Super-Resolution [7.551130027327461]
本研究では,ビジョン・マンバと蒸留戦略を組み込んだ新しい軽量画像SRネットワークであるDVMSRを提案する。
提案したDVMSRは,モデルパラメータの観点から,最先端の効率的なSR手法より優れている。
論文 参考訳(メタデータ) (2024-05-05T17:34:38Z) - Better "CMOS" Produces Clearer Images: Learning Space-Variant Blur
Estimation for Blind Image Super-Resolution [30.816546273417774]
我々は、空のぼかしを持つ2つの新しいデータセット、すなわちNYUv2-BSRとCityscapes-BSRを導入する。
データセットに基づいて,ブラーとセマンティクスを同時に推定するクロスモーダルファシオンネットワーク(CMOS)を設計する。
論文 参考訳(メタデータ) (2023-04-07T08:40:31Z) - CiaoSR: Continuous Implicit Attention-in-Attention Network for
Arbitrary-Scale Image Super-Resolution [158.2282163651066]
本稿ではCiaoSRと呼ばれる連続的な暗黙の注意-注意ネットワークを提案する。
我々は、周辺地域の特徴のアンサンブル重みを学習するために、暗黙の注意ネットワークを明示的に設計する。
我々は、この暗黙の注意ネットワークにスケールアウェアの注意を埋め込んで、追加の非ローカル情報を活用する。
論文 参考訳(メタデータ) (2022-12-08T15:57:46Z) - RRSR:Reciprocal Reference-based Image Super-Resolution with Progressive
Feature Alignment and Selection [66.08293086254851]
本稿では,RefSRネットワークの学習を強化するための相互学習フレームワークを提案する。
新たに提案したモジュールは,マルチスケールの特徴空間に参照入力画像をアライメントし,参照認識機能の選択を行う。
我々は,最近のRefSRモデルが相互学習パラダイムによって一貫した改善が可能であることを実証的に示す。
論文 参考訳(メタデータ) (2022-11-08T12:39:35Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。