論文の概要: Uformer: A General U-Shaped Transformer for Image Restoration
- arxiv url: http://arxiv.org/abs/2106.03106v1
- Date: Sun, 6 Jun 2021 12:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:06:54.313348
- Title: Uformer: A General U-Shaped Transformer for Image Restoration
- Title(参考訳): Uformer:画像復元のための一般的なU字型トランス
- Authors: Zhendong Wang, Xiaodong Cun, Jianmin Bao, Jianzhuang Liu
- Abstract要約: 画像復元のためにTransformerブロックを用いた階層型エンコーダデコーダネットワークを構築した。
いくつかの画像復元タスクの実験は、Uformerの優位性を示している。
- 参考スコア(独自算出の注目度): 47.60420806106756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Uformer, an effective and efficient
Transformer-based architecture, in which we build a hierarchical
encoder-decoder network using the Transformer block for image restoration.
Uformer has two core designs to make it suitable for this task. The first key
element is a local-enhanced window Transformer block, where we use
non-overlapping window-based self-attention to reduce the computational
requirement and employ the depth-wise convolution in the feed-forward network
to further improve its potential for capturing local context. The second key
element is that we explore three skip-connection schemes to effectively deliver
information from the encoder to the decoder. Powered by these two designs,
Uformer enjoys a high capability for capturing useful dependencies for image
restoration. Extensive experiments on several image restoration tasks
demonstrate the superiority of Uformer, including image denoising, deraining,
deblurring and demoireing. We expect that our work will encourage further
research to explore Transformer-based architectures for low-level vision tasks.
The code and models will be available at
https://github.com/ZhendongWang6/Uformer.
- Abstract(参考訳): 本稿では, トランスフォーマーブロックを用いた階層型エンコーダデコーダネットワークを構築し, 画像復元を行う, 効率的なトランスフォーマーベースアーキテクチャであるUformerを提案する。
Uformerには、このタスクに適した2つのコア設計がある。
第1のキー要素はローカルエンハンスウィンドウトランスブロックで、オーバーラップしないウィンドウベースのセルフアテンションを使用して計算要件を低減し、フィードフォワードネットワークの奥行き方向畳み込みを利用して、ローカルコンテキストをキャプチャする可能性をさらに向上します。
第2の鍵となる要素は、エンコーダからデコーダに情報を効果的に届ける3つのスキップ接続方式を探索することである。
これら2つの設計により、uformerは画像復元に有用な依存関係をキャプチャする能力が高い。
いくつかの画像復元タスクに関する大規模な実験は、画像のデノイング、デライニング、デブロアリング、デレジアリングなど、Uformerの優位性を示している。
低レベルのビジョンタスクのためのTransformerベースのアーキテクチャについて、さらなる研究が期待できる。
コードとモデルはhttps://github.com/zhendongwang6/uformerで入手できる。
関連論文リスト
- Joint multi-dimensional dynamic attention and transformer for general image restoration [14.987034136856463]
屋外のイメージは 雨や迷路、騒音などによって 深刻な劣化に苦しむことが多い
現在の画像復元法は、効率を保ちながら複雑な劣化を扱うのに苦労している。
本稿では,多次元動的注意と自己注意を組み合わせた新しい画像復元アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:58:09Z) - How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。
本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-03-15T14:23:12Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - GridFormer: Residual Dense Transformer with Grid Structure for Image Restoration in Adverse Weather Conditions [97.45751035126548]
我々はGridFormerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
GridFormerは、悪天候下でのイメージ復元のバックボーンとして機能する。
このフレームワークは5つの多様な画像復元タスクに対して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-05-29T03:03:53Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - U2-Former: A Nested U-shaped Transformer for Image Restoration [30.187257111046556]
U2-Formerと呼ばれる画像復元のための深く効果的なトランスフォーマーネットワークを提案する。
コア操作としてTransformerを使用して、ディープエンコーディングとデコード空間でイメージ復元を行うことができる。
論文 参考訳(メタデータ) (2021-12-04T08:37:04Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。