論文の概要: Xformer: Hybrid X-Shaped Transformer for Image Denoising
- arxiv url: http://arxiv.org/abs/2303.06440v1
- Date: Sat, 11 Mar 2023 16:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:49:57.809417
- Title: Xformer: Hybrid X-Shaped Transformer for Image Denoising
- Title(参考訳): Xformer:画像デノーミング用ハイブリッドX字型トランス
- Authors: Jiale Zhang and Yulun Zhang and Jinjin Gu and Jiahua Dong and Linghe
Kong and Xiaokang Yang
- Abstract要約: 我々はX字型視覚変換器のXformerについて述べる。
本研究では,空間ワイドトランスフォーマーブロックとチャネルワイドトランスフォーマーブロックという2種類のトランスフォーマーブロックを採用する。
同等のモデル複雑性の下で、Xformerは、合成および実世界の画像復号化タスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 87.78920982543127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a hybrid X-shaped vision Transformer, named
Xformer, which performs notably on image denoising tasks. We explore
strengthening the global representation of tokens from different scopes. In
detail, we adopt two types of Transformer blocks. The spatial-wise Transformer
block performs fine-grained local patches interactions across tokens defined by
spatial dimension. The channel-wise Transformer block performs direct global
context interactions across tokens defined by channel dimension. Based on the
concurrent network structure, we design two branches to conduct these two
interaction fashions. Within each branch, we employ an encoder-decoder
architecture to capture multi-scale features. Besides, we propose the
Bidirectional Connection Unit (BCU) to couple the learned representations from
these two branches while providing enhanced information fusion. The joint
designs make our Xformer powerful to conduct global information modeling in
both spatial and channel dimensions. Extensive experiments show that Xformer,
under the comparable model complexity, achieves state-of-the-art performance on
the synthetic and real-world image denoising tasks.
- Abstract(参考訳): 本稿では,Xformerと呼ばれるハイブリッドX字型視覚変換器について述べる。
異なるスコープからトークンのグローバル表現を強化することを検討する。
詳しくは、Transformerブロックのタイプを2つ採用する。
空間ワイドトランスフォーマーブロックは、空間次元で定義されたトークン間のきめ細かい局所パッチ相互作用を実行する。
チャネルワイドトランスフォーマーブロックは、チャネル次元で定義されたトークン間で直接グローバルなコンテキストインタラクションを実行する。
並列ネットワーク構造に基づき,これら2つの相互作用パターンを実行するために2つのブランチを設計した。
各ブランチ内では,エンコーダ・デコーダアーキテクチャを用いてマルチスケール機能をキャプチャする。
さらに,この2つのブランチから学習した表現を結合し,情報融合を増強した双方向接続ユニット(BCU)を提案する。
共同設計により、Xformerは空間次元とチャネル次元の両方でグローバルな情報モデリングを行うことができる。
大規模な実験により、Xformerはモデル複雑さに匹敵する条件下で、合成および実世界の画像デノゲーションタスクにおける最先端のパフォーマンスを達成することが示された。
関連論文リスト
- A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Multimodal Image Fusion based on Hybrid CNN-Transformer and Non-local
Cross-modal Attention [12.167049432063132]
本稿では,畳み込みエンコーダとトランスフォーマーベースのデコーダを組み合わせたハイブリッドモデルを提案する。
分岐融合モジュールは、2つの枝の特徴を適応的に融合させるように設計されている。
論文 参考訳(メタデータ) (2022-10-18T13:30:52Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。