論文の概要: Emulating Self-attention with Convolution for Efficient Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2503.06671v1
- Date: Sun, 09 Mar 2025 15:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:38.236987
- Title: Emulating Self-attention with Convolution for Efficient Image Super-Resolution
- Title(参考訳): 画像超解像のための畳み込みによる自己注意のエミュレート
- Authors: Dongheon Lee, Seokju Yun, Youngmin Ro,
- Abstract要約: コンボリューショナル・アテンション(ConvAttn)という,畳み込み型自己アテンションモジュールを導入する。
ConvAttnモジュールを利用することで、自己注意と関連するメモリバウンド操作への依存を著しく低減する。
我々は、フラッシュアテンションを軽量SRシステムに統合し、自己注意の固有のメモリボトルネックを効果的に軽減するという課題を克服する。
- 参考スコア(独自算出の注目度): 6.8410780175245165
- License:
- Abstract: In this paper, we tackle the high computational overhead of transformers for lightweight image super-resolution. (SR). Motivated by the observations of self-attention's inter-layer repetition, we introduce a convolutionized self-attention module named Convolutional Attention (ConvAttn) that emulates self-attention's long-range modeling capability and instance-dependent weighting with a single shared large kernel and dynamic kernels. By utilizing the ConvAttn module, we significantly reduce the reliance on self-attention and its involved memory-bound operations while maintaining the representational capability of transformers. Furthermore, we overcome the challenge of integrating flash attention into the lightweight SR regime, effectively mitigating self-attention's inherent memory bottleneck. We scale up window size to 32$\times$32 with flash attention rather than proposing an intricated self-attention module, significantly improving PSNR by 0.31dB on Urban100$\times$2 while reducing latency and memory usage by 16$\times$ and 12.2$\times$. Building on these approaches, our proposed network, termed Emulating Self-attention with Convolution (ESC), notably improves PSNR by 0.27 dB on Urban100$\times$4 compared to HiT-SRF, reducing the latency and memory usage by 3.7$\times$ and 6.2$\times$, respectively. Extensive experiments demonstrate that our ESC maintains the ability for long-range modeling, data scalability, and the representational power of transformers despite most self-attentions being replaced by the ConvAttn module.
- Abstract(参考訳): 本稿では,超高解像度画像に対する変換器の高計算オーバーヘッドに対処する。
(SR)。
自己アテンションの層間繰り返しの観測により,コンボリューショナルアテンション(ConvAttn)と呼ばれる,自己アテンションの長距離モデリング能力と単一共有大カーネルと動的カーネルとのインスタンス依存重み付けをエミュレートした,畳み込み自己アテンションモジュールを導入する。
ConvAttnモジュールを利用することで、変換器の表現能力を維持しつつ、自己アテンションとその関連するメモリバウンド操作への依存を著しく低減する。
さらに、フラッシュアテンションを軽量SRシステムに統合するという課題を克服し、自己注意の固有のメモリボトルネックを効果的に軽減する。
ウィンドウサイズを32$\times$32にスケールアップし、複雑な自己アテンションモジュールを提案するのではなく、フラッシュアテンションで、PSNRをUrban100$\times$2で0.31dB改善し、レイテンシとメモリ使用量を16$\times$と12.2$\times$に削減した。
これらのアプローチに基づいて提案したネットワークは,Emulating Self-attention with Convolution (ESC)と呼ばれ,特にUrban100$\times$4のPSNRを改良し,遅延とメモリ使用量をそれぞれ3.7$\times$と6.2$\times$とした。
大規模な実験により,我々のESCは,ConvAttnモジュールに置き換えられながら,長距離モデリングやデータスケーラビリティ,トランスフォーマーの表現力の維持を図っている。
関連論文リスト
- E-MD3C: Taming Masked Diffusion Transformers for Efficient Zero-Shot Object Customization [20.441652320245975]
E-MD3Cは、ゼロショットオブジェクト画像のカスタマイズのための非常に効率的なフレームワークである。
リソース集約型Unetアーキテクチャに依存する以前の作業とは異なり、我々のアプローチでは軽量なマスク付き拡散トランスフォーマーを採用している。
E-MD3Cは、PSNR、FID、SSIM、LPIPSなどのメトリクスでVITON-HDデータセットの既存のアプローチより優れている。
論文 参考訳(メタデータ) (2025-02-13T10:48:11Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift [6.835244697120131]
1x1のパッチサイズを利用して制限に対処するTaylorIRを提案し、任意のトランスフォーマーベースSRモデルでピクセルレベルの処理を可能にする。
実験により,従来の自己注意型変圧器と比較して,メモリ消費を最大60%削減しながら,最先端のSR性能を実現することができた。
論文 参考訳(メタデータ) (2024-11-15T14:43:58Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design [5.962184741057505]
本稿では,メモリ効率のよい設計レベルでの計算冗長性に対処することを目的とする。
より大きなストライドのパッチフィクスを使用するとメモリアクセスコストが削減されるだけでなく、競争性能も向上することがわかった。
SHViTは、最先端の速度精度トレードオフを得る単一ヘッドビジョン変換器である。
論文 参考訳(メタデータ) (2024-01-29T09:12:23Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE [0.8403582577557918]
Transformerは画像認識タスクに採用され、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。
本稿では,ResNetの代わりにNeural ODEをバックボーンとして使用する軽量ハイブリッドモデルを提案する。
提案モデルは,エッジコンピューティングのための最小サイズのFPGAデバイス上に展開される。
論文 参考訳(メタデータ) (2024-01-05T09:32:39Z) - Fully $1\times1$ Convolutional Network for Lightweight Image
Super-Resolution [79.04007257606862]
ディープモデルは、シングルイメージ超解像(SISR)タスク、特に大きなカーネルを持つ大きなモデル(3時間3ドル以上)において重要なプロセスを持つ。
$1times1$の畳み込みは計算効率を大幅に向上させるが、局所的な空間表現の集約に苦労する。
我々は、Shift-Conv-based Network (SCNet) という、シンプルで効果的な1時間1ドルの畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T06:24:03Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。