論文の概要: Restormer: Efficient Transformer for High-Resolution Image Restoration
- arxiv url: http://arxiv.org/abs/2111.09881v1
- Date: Thu, 18 Nov 2021 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:50:05.824094
- Title: Restormer: Efficient Transformer for High-Resolution Image Restoration
- Title(参考訳): Restormer:高分解能画像復元のための効率的なトランス
- Authors: Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad
Shahbaz Khan, Ming-Hsuan Yang
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
- 参考スコア(独自算出の注目度): 118.9617735769827
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Since convolutional neural networks (CNNs) perform well at learning
generalizable image priors from large-scale data, these models have been
extensively applied to image restoration and related tasks. Recently, another
class of neural architectures, Transformers, have shown significant performance
gains on natural language and high-level vision tasks. While the Transformer
model mitigates the shortcomings of CNNs (i.e., limited receptive field and
inadaptability to input content), its computational complexity grows
quadratically with the spatial resolution, therefore making it infeasible to
apply to most image restoration tasks involving high-resolution images. In this
work, we propose an efficient Transformer model by making several key designs
in the building blocks (multi-head attention and feed-forward network) such
that it can capture long-range pixel interactions, while still remaining
applicable to large images. Our model, named Restoration Transformer
(Restormer), achieves state-of-the-art results on several image restoration
tasks, including image deraining, single-image motion deblurring, defocus
deblurring (single-image and dual-pixel data), and image denoising (Gaussian
grayscale/color denoising, and real image denoising). The source code and
pre-trained models are available at https://github.com/swz30/Restormer.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習に優れており、これらのモデルは画像復元や関連するタスクに広く適用されている。
近年,ニューラルアーキテクチャの別のクラスであるTransformersは,自然言語や高レベルの視覚タスクにおいて,大幅なパフォーマンス向上を示している。
トランスフォーマーモデルはCNNの欠点を緩和するが、その計算複雑性は空間分解能と2次的に増大し、高解像度画像を含むほとんどの画像復元タスクに適用することは不可能である。
本研究では,ビルディングブロック (マルチヘッドアテンション, フィードフォワードネットワーク) における複数のキー設計を, 大規模画像に適用しながら, 長距離画素間相互作用を捉えることで, 効率的なトランスフォーマーモデルを提案する。
このモデルでは,画像のデアライニング,シングルイメージ動作のデブロアリング,デフォーカスデブロアリング(シングルイメージとデュアルピクセルのデータ),イメージデノナイジング(ガウスのグレースケール/カラーデノナイジング,実画像デノナイジング)など,画像修復作業における最先端の成果が得られた。
ソースコードと事前トレーニングされたモデルはhttps://github.com/swz30/Restormer.comで入手できる。
関連論文リスト
- Joint multi-dimensional dynamic attention and transformer for general image restoration [14.987034136856463]
屋外のイメージは 雨や迷路、騒音などによって 深刻な劣化に苦しむことが多い
現在の画像復元法は、効率を保ちながら複雑な劣化を扱うのに苦労している。
本稿では,多次元動的注意と自己注意を組み合わせた新しい画像復元アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:58:09Z) - Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。
提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T16:42:58Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Incremental Transformer Structure Enhanced Image Inpainting with Masking
Positional Encoding [38.014569953980754]
提案モデルでは,低解像度のスケッチ空間において,強力なアテンションベーストランスフォーマーモデルを用いて全体像構造を復元する。
我々のモデルは、ゼロd残差加算により、他の事前学習した塗装モデルと効率的に統合することができる。
論文 参考訳(メタデータ) (2022-03-02T04:27:27Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。