論文の概要: Unfolding Once is Enough: A Deployment-Friendly Transformer Unit for
Super-Resolution
- arxiv url: http://arxiv.org/abs/2308.02794v1
- Date: Sat, 5 Aug 2023 05:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 18:37:51.088075
- Title: Unfolding Once is Enough: A Deployment-Friendly Transformer Unit for
Super-Resolution
- Title(参考訳): 展開に優しい超高解像度トランスフォーマーユニット「unfolding once」
- Authors: Yong Liu, Hang Dong, Boyang Liang, Songwei Liu, Qingji Dong, Kai Chen,
Fangmin Chen, Lean Fu, and Fei Wang
- Abstract要約: SISRモデルの中間機能の高解像度化は、メモリと計算要求を増加させる。
本稿では、SISRタスクのためのデプロイメントフレンドリな内部パッチ変換ネットワーク(DITN)を提案する。
我々のモデルは、質的かつ定量的な性能と高いデプロイメント効率で競合する結果を得ることができる。
- 参考スコア(独自算出の注目度): 16.54421804141835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed a few attempts of vision transformers for single
image super-resolution (SISR). Since the high resolution of intermediate
features in SISR models increases memory and computational requirements,
efficient SISR transformers are more favored. Based on some popular transformer
backbone, many methods have explored reasonable schemes to reduce the
computational complexity of the self-attention module while achieving
impressive performance. However, these methods only focus on the performance on
the training platform (e.g., Pytorch/Tensorflow) without further optimization
for the deployment platform (e.g., TensorRT). Therefore, they inevitably
contain some redundant operators, posing challenges for subsequent deployment
in real-world applications. In this paper, we propose a deployment-friendly
transformer unit, namely UFONE (i.e., UnFolding ONce is Enough), to alleviate
these problems. In each UFONE, we introduce an Inner-patch Transformer Layer
(ITL) to efficiently reconstruct the local structural information from patches
and a Spatial-Aware Layer (SAL) to exploit the long-range dependencies between
patches. Based on UFONE, we propose a Deployment-friendly Inner-patch
Transformer Network (DITN) for the SISR task, which can achieve favorable
performance with low latency and memory usage on both training and deployment
platforms. Furthermore, to further boost the deployment efficiency of the
proposed DITN on TensorRT, we also provide an efficient substitution for layer
normalization and propose a fusion optimization strategy for specific
operators. Extensive experiments show that our models can achieve competitive
results in terms of qualitative and quantitative performance with high
deployment efficiency. Code is available at
\url{https://github.com/yongliuy/DITN}.
- Abstract(参考訳): 近年、シングルイメージ・スーパーレゾリューション(sisr)用の視覚トランスフォーマーがいくつか試みられている。
SISRモデルの中間特性の高解像度化はメモリと計算要求を増大させるため、効率的なSISRトランスが好まれる。
一般的なトランスフォーマーバックボーンに基づいて、多くの手法が、印象的なパフォーマンスを実現しつつ、自己着脱モジュールの計算複雑性を減らすための合理的なスキームを探求している。
しかしながら、これらの手法はトレーニングプラットフォーム(pytorch/tensorflowなど)のパフォーマンスにのみ焦点を合わせ、デプロイプラットフォーム(tensorrtなど)のさらなる最適化を行わない。
したがって、それらは必然的に冗長なオペレータを含み、実際のアプリケーションへのその後のデプロイの課題となる。
本稿では,これらの問題を緩和するために,UFONE(UnFolding ONce is Enough)という,デプロイメントフレンドリーなトランスフォーマーユニットを提案する。
各UFONEでは,パッチから局所構造情報を効率的に再構築する内パッチトランスフォーマ層 (ITL) と,パッチ間の長距離依存関係を利用する空間認識層 (SAL) を導入する。
UFONEに基づいて、SISRタスクのためのデプロイメントフレンドリーな内部パッチ変換ネットワーク(DITN)を提案する。
さらに,提案するtensorrt上のditnの展開効率をさらに高めるため,層正規化の効率的な代替を提供し,特定の演算子に対する核融合最適化戦略を提案する。
広範な実験により,我々のモデルは,高いデプロイ効率で質的かつ定量的な性能で,競争力のある結果が得られることが示された。
コードは \url{https://github.com/yongliuy/DITN} で入手できる。
関連論文リスト
- Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。
実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-14T10:36:19Z) - HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文 参考訳(メタデータ) (2024-07-08T12:42:10Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Incorporating Transformer Designs into Convolutions for Lightweight
Image Super-Resolution [46.32359056424278]
大規模な畳み込みカーネルは畳み込みニューラルネットワークの設計に人気がある。
カーネルのサイズが大きくなるとパラメータの数が2倍に増加し、計算量やメモリの要求も大きくなる。
本稿では,自己注意機構を付加した標準畳み込みを改良した近傍注意モジュールを提案する。
NAモジュールをベースとして,TSRと呼ばれる軽量単一画像超解像(SISR)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T01:32:18Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Image Super-Resolution using Efficient Striped Window Transformer [6.815956004383743]
本稿では,効率的なストライプウィンドウトランス (ESWT) を提案する。
ESWTは効率的な変換層(ETL)で構成されており、クリーンな構造と冗長な操作を避けることができる。
トランスの可能性をさらに活用するために,新しいフレキシブルウィンドウトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-01-24T09:09:35Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - Residual Local Feature Network for Efficient Super-Resolution [20.62809970985125]
本研究では,Residual Local Feature Network (RLFN)を提案する。
主なアイデアは、3つの畳み込みレイヤを局所的な特徴学習に使用して、機能の集約を単純化することだ。
さらに,NTIRE 2022の高効率超解像問題において,第1位を獲得した。
論文 参考訳(メタデータ) (2022-05-16T08:46:34Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。