論文の概要: Restormer: Efficient Transformer for High-Resolution Image Restoration
- arxiv url: http://arxiv.org/abs/2111.09881v1
- Date: Thu, 18 Nov 2021 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:50:05.824094
- Title: Restormer: Efficient Transformer for High-Resolution Image Restoration
- Title(参考訳): Restormer:高分解能画像復元のための効率的なトランス
- Authors: Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad
Shahbaz Khan, Ming-Hsuan Yang
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
- 参考スコア(独自算出の注目度): 118.9617735769827
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Since convolutional neural networks (CNNs) perform well at learning
generalizable image priors from large-scale data, these models have been
extensively applied to image restoration and related tasks. Recently, another
class of neural architectures, Transformers, have shown significant performance
gains on natural language and high-level vision tasks. While the Transformer
model mitigates the shortcomings of CNNs (i.e., limited receptive field and
inadaptability to input content), its computational complexity grows
quadratically with the spatial resolution, therefore making it infeasible to
apply to most image restoration tasks involving high-resolution images. In this
work, we propose an efficient Transformer model by making several key designs
in the building blocks (multi-head attention and feed-forward network) such
that it can capture long-range pixel interactions, while still remaining
applicable to large images. Our model, named Restoration Transformer
(Restormer), achieves state-of-the-art results on several image restoration
tasks, including image deraining, single-image motion deblurring, defocus
deblurring (single-image and dual-pixel data), and image denoising (Gaussian
grayscale/color denoising, and real image denoising). The source code and
pre-trained models are available at https://github.com/swz30/Restormer.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習に優れており、これらのモデルは画像復元や関連するタスクに広く適用されている。
近年,ニューラルアーキテクチャの別のクラスであるTransformersは,自然言語や高レベルの視覚タスクにおいて,大幅なパフォーマンス向上を示している。
トランスフォーマーモデルはCNNの欠点を緩和するが、その計算複雑性は空間分解能と2次的に増大し、高解像度画像を含むほとんどの画像復元タスクに適用することは不可能である。
本研究では,ビルディングブロック (マルチヘッドアテンション, フィードフォワードネットワーク) における複数のキー設計を, 大規模画像に適用しながら, 長距離画素間相互作用を捉えることで, 効率的なトランスフォーマーモデルを提案する。
このモデルでは,画像のデアライニング,シングルイメージ動作のデブロアリング,デフォーカスデブロアリング(シングルイメージとデュアルピクセルのデータ),イメージデノナイジング(ガウスのグレースケール/カラーデノナイジング,実画像デノナイジング)など,画像修復作業における最先端の成果が得られた。
ソースコードと事前トレーニングされたモデルはhttps://github.com/swz30/Restormer.comで入手できる。
関連論文リスト
- Learning A Sparse Transformer Network for Effective Image Deraining [42.01684644627124]
有効デレインネットワークであるスパーストランス(DRSformer)を提案する。
学習可能なトップk選択演算子を開発し、各クエリのキーから最も重要な注意点を適応的に保持し、より優れた機能アグリゲーションを実現する。
我々は,協調改良デライン方式を示すために,専門家による特徴補償器を混合したモデルを開発した。
論文 参考訳(メタデータ) (2023-03-21T15:41:57Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Incremental Transformer Structure Enhanced Image Inpainting with Masking
Positional Encoding [38.014569953980754]
提案モデルでは,低解像度のスケッチ空間において,強力なアテンションベーストランスフォーマーモデルを用いて全体像構造を復元する。
我々のモデルは、ゼロd残差加算により、他の事前学習した塗装モデルと効率的に統合することができる。
論文 参考訳(メタデータ) (2022-03-02T04:27:27Z) - SUNet: Swin Transformer UNet for Image Denoising [6.909688694501238]
過去数年間、畳み込みニューラルネットワーク(CNN)がコンピュータビジョンを支配していた。
本稿では,Swin Transformer層を基本ブロックとするSUNetと呼ばれる復元モデルを提案する。
論文 参考訳(メタデータ) (2022-02-28T18:26:57Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。