論文の概要: Efficient Mixed Transformer for Single Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2305.11403v5
- Date: Mon, 19 Jun 2023 06:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 02:00:55.882734
- Title: Efficient Mixed Transformer for Single Image Super-Resolution
- Title(参考訳): 単一画像超解像用高能率混合変圧器
- Authors: Ling Zheng, Jinchen Zhu, Jinpeng Shi, Shizhuang Weng
- Abstract要約: Mixed Transformer Block (MTB) は複数の連続トランス層から構成される。
Pixel Mixer (PM) はSelf-Attention (SA) を置き換えるために使用される。
PMは、ピクセルシフト操作による局所的な知識集約を強化することができる。
- 参考スコア(独自算出の注目度): 1.7740376367999706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer-based methods have achieved impressive results in
single image super-resolution (SISR). However, the lack of locality mechanism
and high complexity limit their application in the field of super-resolution
(SR). To solve these problems, we propose a new method, Efficient Mixed
Transformer (EMT) in this study. Specifically, we propose the Mixed Transformer
Block (MTB), consisting of multiple consecutive transformer layers, in some of
which the Pixel Mixer (PM) is used to replace the Self-Attention (SA). PM can
enhance the local knowledge aggregation with pixel shifting operations. At the
same time, no additional complexity is introduced as PM has no parameters and
floating-point operations. Moreover, we employ striped window for SA (SWSA) to
gain an efficient global dependency modelling by utilizing image anisotropy.
Experimental results show that EMT outperforms the existing methods on
benchmark dataset and achieved state-of-the-art performance. The Code is
available at https://github.com/Fried-Rice-Lab/FriedRiceLab.
- Abstract(参考訳): 近年,変圧器を用いた手法は単一画像超解像法 (sisr) で印象的な結果を得ている。
しかし、局所性機構の欠如と高複雑性は超解像(SR)の分野における応用を制限する。
これらの問題を解決するため,本研究ではEMT(Efficient Mixed Transformer)を提案する。
具体的には,複数の連続トランス層からなるMixed Transformer Block (MTB)を提案する。
PMはピクセルシフト操作によって局所的な知識集約を強化することができる。
pmにはパラメータや浮動小数点演算がないため、追加の複雑さは導入されない。
さらに、画像異方性を利用して、効率的なグローバル依存モデリングを実現するために、SA(SWSA)のストライプウィンドウを用いる。
実験結果から,EMTはベンチマークデータセット上で既存の手法よりも優れ,最先端の性能を達成した。
コードはhttps://github.com/Fried-Rice-Lab/FriedRiceLabで入手できる。
関連論文リスト
- Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Unfolding Once is Enough: A Deployment-Friendly Transformer Unit for
Super-Resolution [16.54421804141835]
SISRモデルの中間機能の高解像度化は、メモリと計算要求を増加させる。
本稿では、SISRタスクのためのデプロイメントフレンドリな内部パッチ変換ネットワーク(DITN)を提案する。
我々のモデルは、質的かつ定量的な性能と高いデプロイメント効率で競合する結果を得ることができる。
論文 参考訳(メタデータ) (2023-08-05T05:42:51Z) - RAMiT: Reciprocal Attention Mixing Transformer for Lightweight Image
Restoration [7.419584083344995]
本稿では,RAMiT(Reciprocal Attention Mixing Transformer)という軽量画像復元ネットワークを提案する。
二次元(空間とチャネル)の自己アテンションを、異なる数のマルチヘッドと並行して使用する。
超高分解能、カラーデノイング、グレースケールデノナイジング、低照度向上、デラリニングなど、複数の軽量IRタスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-19T06:55:04Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Mixed Transformer U-Net For Medical Image Segmentation [14.046456257175237]
本稿では,相互親和性学習と親和性学習を同時に行うためのMTMを提案する。
MTMを用いて、正確な医用画像分割のためのMixed Transformer U-Net(MT-UNet)と呼ばれるU字型モデルを構築した。
論文 参考訳(メタデータ) (2021-11-08T09:03:46Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。