論文の概要: Cross Aggregation Transformer for Image Restoration
- arxiv url: http://arxiv.org/abs/2211.13654v1
- Date: Thu, 24 Nov 2022 15:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:35:06.788407
- Title: Cross Aggregation Transformer for Image Restoration
- Title(参考訳): 画像復元のためのクロスアグリゲーショントランス
- Authors: Chen Zheng, Yulun Zhang, Jinjin Gu, Yongbing Zhang, Linghe Kong, Xin
Yuan
- Abstract要約: 近年,畳み込みニューラルネットワーク(CNN)に代えて,画像復元にトランスフォーマーアーキテクチャが導入されている。
上記の問題に対処するため,新しい画像復元モデルであるCross Aggregation Transformer (CAT)を提案する。
我々のCATの中核はRectangle-Window Self-Attention (Rwin-SA)であり、これは異なる頭部における水平および垂直の矩形窓の注意を平行に利用し、注意領域を広げ、異なる窓を横断する特徴を集約する。
さらに,CNNの帰納バイアス(例えば翻訳における帰納的バイアス)を組み込んだ自己注意機構を補完するLocality Complementary Moduleを提案する。
- 参考スコア(独自算出の注目度): 50.32933196241895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer architecture has been introduced into image restoration
to replace convolution neural network (CNN) with surprising results.
Considering the high computational complexity of Transformer with global
attention, some methods use the local square window to limit the scope of
self-attention. However, these methods lack direct interaction among different
windows, which limits the establishment of long-range dependencies. To address
the above issue, we propose a new image restoration model, Cross Aggregation
Transformer (CAT). The core of our CAT is the Rectangle-Window Self-Attention
(Rwin-SA), which utilizes horizontal and vertical rectangle window attention in
different heads parallelly to expand the attention area and aggregate the
features cross different windows. We also introduce the Axial-Shift operation
for different window interactions. Furthermore, we propose the Locality
Complementary Module to complement the self-attention mechanism, which
incorporates the inductive bias of CNN (e.g., translation invariance and
locality) into Transformer, enabling global-local coupling. Extensive
experiments demonstrate that our CAT outperforms recent state-of-the-art
methods on several image restoration applications. The code and models are
available at https://github.com/zhengchen1999/CAT.
- Abstract(参考訳): 近年,畳み込みニューラルネットワーク(cnn)を驚くべき結果に置き換えるため,画像復元にトランスフォーマーアーキテクチャが導入された。
グローバルな注意を伴うトランスフォーマーの計算複雑性を考えると、局所的な正方形ウィンドウを用いて自己注意の範囲を制限する方法もある。
しかし、これらの手法は異なるウィンドウ間で直接の相互作用を欠いているため、長距離依存関係の確立が制限される。
上記の問題に対処するため,新たな画像復元モデルであるCross Aggregation Transformer (CAT)を提案する。
我々のCATの中核はRectangle-Window Self-Attention (Rwin-SA)であり、これは異なる頭部における水平および垂直の矩形窓の注意を平行に利用し、注意領域を広げ、異なる窓を横断する特徴を集約する。
また、異なるウィンドウインタラクションのためのAxial-Shift演算も導入する。
さらに,cnnの帰納的バイアス(翻訳不変性と局所性など)をトランスフォーマーに組み込んで,グローバル局所結合を可能にする自己接続機構を補完する局所性補完モジュールを提案する。
我々のCATは、いくつかの画像復元アプリケーションにおいて、最近の最先端の手法よりも優れています。
コードとモデルはhttps://github.com/zhengchen1999/catで入手できる。
関連論文リスト
- HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - CAT: Cross Attention in Vision Transformer [39.862909079452294]
クロスアテンション(Cross Attention)と呼ばれるトランスフォーマーにおける新しいアテンション機構を提案する。
画像全体ではなく、イメージパッチの内部に注意を置き、ローカル情報をキャプチャする。
我々は、他の視覚タスクのためのCAT(Cross Attention Transformer)と呼ばれる階層的なネットワークを構築します。
論文 参考訳(メタデータ) (2021-06-10T14:38:32Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。