論文の概要: MaxSR: Image Super-Resolution Using Improved MaxViT
- arxiv url: http://arxiv.org/abs/2307.07240v1
- Date: Fri, 14 Jul 2023 09:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 14:33:05.346894
- Title: MaxSR: Image Super-Resolution Using Improved MaxViT
- Title(参考訳): MaxSR: 改良されたMaxViTによる画像超解像
- Authors: Bincheng Yang and Gangshan Wu
- Abstract要約: 我々は、MaxViTのハイブリッドビジョン変換器(MaxSR)をベースとした、単一画像超解像モデルを提案する。
従来の単一画像超解像 (MaxSR) と軽量単一画像超解像 (MaxSR-light) のモデルにより, 新たな最先端性能の確立が期待できる。
- 参考スコア(独自算出の注目度): 34.53995225219387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While transformer models have been demonstrated to be effective for natural
language processing tasks and high-level vision tasks, only a few attempts have
been made to use powerful transformer models for single image super-resolution.
Because transformer models have powerful representation capacity and the
in-built self-attention mechanisms in transformer models help to leverage
self-similarity prior in input low-resolution image to improve performance for
single image super-resolution, we present a single image super-resolution model
based on recent hybrid vision transformer of MaxViT, named as MaxSR. MaxSR
consists of four parts, a shallow feature extraction block, multiple cascaded
adaptive MaxViT blocks to extract deep hierarchical features and model global
self-similarity from low-level features efficiently, a hierarchical feature
fusion block, and finally a reconstruction block. The key component of MaxSR,
i.e., adaptive MaxViT block, is based on MaxViT block which mixes MBConv with
squeeze-and-excitation, block attention and grid attention. In order to achieve
better global modelling of self-similarity in input low-resolution image, we
improve block attention and grid attention in MaxViT block to adaptive block
attention and adaptive grid attention which do self-attention inside each
window across all grids and each grid across all windows respectively in the
most efficient way. We instantiate proposed model for classical single image
super-resolution (MaxSR) and lightweight single image super-resolution
(MaxSR-light). Experiments show that our MaxSR and MaxSR-light establish new
state-of-the-art performance efficiently.
- Abstract(参考訳): トランスモデルは自然言語処理タスクや高レベル視覚タスクに有効であることが示されているが、単一画像の超解像に強力なトランスフォーマーモデルを使用する試みはわずかである。
トランスモデルには強力な表現能力があり,入力された低解像度画像の自己相似性を活かし,単一画像超解像の性能向上に寄与するので,MaxViT のハイブリッドビジョン変換器である MaxSR をベースとした単一画像超解像モデルを提案する。
MaxSRは、4つの部分から構成されており、浅い特徴抽出ブロック、複数のカスケード適応MaxViTブロックで階層的な特徴を抽出し、低レベルの特徴から効率的にグローバルな自己相似性をモデル化する。
MaxSRのキーコンポーネント、すなわちアダプティブMaxViTブロックは、MBConvと圧縮・励起、ブロックアテンション、グリッドアテンションを混合したMaxViTブロックに基づいている。
入力された低解像度画像における自己相似性のより優れたグローバルなモデリングを実現するため、MaxViTブロックにおけるブロックアテンションとグリッドアテンションを改善し、各ウィンドウ内のすべてのグリッドとグリッド間の自己アテンションを、最も効率的な方法で調整する。
従来の単一画像超解像(MaxSR)と軽量単一画像超解像(MaxSR-light)のモデルを提案する。
実験により,我々のMaxSRとMaxSR-lightは,新しい最先端性能を効率的に確立することを示した。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift [6.835244697120131]
1x1のパッチサイズを利用して制限に対処するTaylorIRを提案し、任意のトランスフォーマーベースSRモデルでピクセルレベルの処理を可能にする。
実験により,従来の自己注意型変圧器と比較して,メモリ消費を最大60%削減しながら,最先端のSR性能を実現することができた。
論文 参考訳(メタデータ) (2024-11-15T14:43:58Z) - Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - CFAT: Unleashing TriangularWindows for Image Super-resolution [5.130320840059732]
トランスフォーマーモデルが画像超解像(SR)の分野に革命をもたらした
境界レベルの歪みを軽減するために,矩形ウィンドウと同期して動作する非重なりの三角形ウィンドウ手法を提案する。
提案モデルでは,他の最先端SRアーキテクチャに比べて0.7dB性能が向上した。
論文 参考訳(メタデータ) (2024-03-24T13:31:31Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Self-Calibrated Efficient Transformer for Lightweight Super-Resolution [21.63691922827879]
本稿では,この問題を解決するために,SCET(Self-Calibrated Efficient Transformer)ネットワークを提案する。
SCETのアーキテクチャは、主に自己校正モジュールと効率的なトランスフォーマーブロックで構成されている。
ネットワーク全体の異なる設定に関する総合的な結果を提供する。
論文 参考訳(メタデータ) (2022-04-19T14:20:32Z) - MaxViT: Multi-Axis Vision Transformer [19.192826213493838]
多軸アテンションと呼ばれる効率的でスケーラブルなアテンションモデルを導入する。
提案するアテンションモデルと畳み込みを効果的に組み合わせることで,新しいアーキテクチャ要素を提案する。
視覚タスクの幅広い範囲におけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:44Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - Asymmetric CNN for image super-resolution [102.96131810686231]
深層畳み込みニューラルネットワーク(CNN)は、過去5年間で低レベルビジョンに広く適用されています。
画像超解像のための非対称ブロック(AB)、mem?ory拡張ブロック(MEB)、高周波数特徴強調ブロック(HFFEB)からなる非対称CNN(ACNet)を提案する。
我々のACNetは、ブラインドノイズの単一画像超解像(SISR)、ブラインドSISR、ブラインドSISRを効果的に処理できる。
論文 参考訳(メタデータ) (2021-03-25T07:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。