論文の概要: Uformer: A General U-Shaped Transformer for Image Restoration
- arxiv url: http://arxiv.org/abs/2106.03106v1
- Date: Sun, 6 Jun 2021 12:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:06:54.313348
- Title: Uformer: A General U-Shaped Transformer for Image Restoration
- Title(参考訳): Uformer:画像復元のための一般的なU字型トランス
- Authors: Zhendong Wang, Xiaodong Cun, Jianmin Bao, Jianzhuang Liu
- Abstract要約: 画像復元のためにTransformerブロックを用いた階層型エンコーダデコーダネットワークを構築した。
いくつかの画像復元タスクの実験は、Uformerの優位性を示している。
- 参考スコア(独自算出の注目度): 47.60420806106756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Uformer, an effective and efficient
Transformer-based architecture, in which we build a hierarchical
encoder-decoder network using the Transformer block for image restoration.
Uformer has two core designs to make it suitable for this task. The first key
element is a local-enhanced window Transformer block, where we use
non-overlapping window-based self-attention to reduce the computational
requirement and employ the depth-wise convolution in the feed-forward network
to further improve its potential for capturing local context. The second key
element is that we explore three skip-connection schemes to effectively deliver
information from the encoder to the decoder. Powered by these two designs,
Uformer enjoys a high capability for capturing useful dependencies for image
restoration. Extensive experiments on several image restoration tasks
demonstrate the superiority of Uformer, including image denoising, deraining,
deblurring and demoireing. We expect that our work will encourage further
research to explore Transformer-based architectures for low-level vision tasks.
The code and models will be available at
https://github.com/ZhendongWang6/Uformer.
- Abstract(参考訳): 本稿では, トランスフォーマーブロックを用いた階層型エンコーダデコーダネットワークを構築し, 画像復元を行う, 効率的なトランスフォーマーベースアーキテクチャであるUformerを提案する。
Uformerには、このタスクに適した2つのコア設計がある。
第1のキー要素はローカルエンハンスウィンドウトランスブロックで、オーバーラップしないウィンドウベースのセルフアテンションを使用して計算要件を低減し、フィードフォワードネットワークの奥行き方向畳み込みを利用して、ローカルコンテキストをキャプチャする可能性をさらに向上します。
第2の鍵となる要素は、エンコーダからデコーダに情報を効果的に届ける3つのスキップ接続方式を探索することである。
これら2つの設計により、uformerは画像復元に有用な依存関係をキャプチャする能力が高い。
いくつかの画像復元タスクに関する大規模な実験は、画像のデノイング、デライニング、デブロアリング、デレジアリングなど、Uformerの優位性を示している。
低レベルのビジョンタスクのためのTransformerベースのアーキテクチャについて、さらなる研究が期待できる。
コードとモデルはhttps://github.com/zhendongwang6/uformerで入手できる。
関連論文リスト
- HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - GridFormer: Residual Dense Transformer with Grid Structure for Image
Restoration in Adverse Weather Conditions [123.01030732894691]
我々はGridFormerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
GridFormerは、悪天候下でのイメージ復元のバックボーンとして機能する。
このフレームワークは5つの多様な画像復元タスクに対して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-05-29T03:03:53Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - U2-Former: A Nested U-shaped Transformer for Image Restoration [30.187257111046556]
U2-Formerと呼ばれる画像復元のための深く効果的なトランスフォーマーネットワークを提案する。
コア操作としてTransformerを使用して、ディープエンコーディングとデコード空間でイメージ復元を行うことができる。
論文 参考訳(メタデータ) (2021-12-04T08:37:04Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。