論文の概要: GLMHA A Guided Low-rank Multi-Head Self-Attention for Efficient Image Restoration and Spectral Reconstruction
- arxiv url: http://arxiv.org/abs/2410.00380v1
- Date: Tue, 1 Oct 2024 04:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 05:56:31.280855
- Title: GLMHA A Guided Low-rank Multi-Head Self-Attention for Efficient Image Restoration and Spectral Reconstruction
- Title(参考訳): GLMHAによる高能率画像修復とスペクトル再構成のための低位マルチヘッドセルフアテンション
- Authors: Zaid Ilyas, Naveed Akhtar, David Suter, Syed Zulqarnain Gilani,
- Abstract要約: 本稿では,チャネルワイド・セルフアテンションを置き換えるために,インスタンス誘導型低ランクマルチヘッド・セルフアテンションを提案する。
提案したGLMHAに共通するのは、短い入力シーケンスと長い入力シーケンスの両方に対して計算利得を提供する能力である。
その結果,7.7ギガFLOPsの削減が達成され,最高の性能モデルの性能を維持するために必要なパラメータが370K削減された。
- 参考スコア(独自算出の注目度): 36.23508672036131
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image restoration and spectral reconstruction are longstanding computer vision tasks. Currently, CNN-transformer hybrid models provide state-of-the-art performance for these tasks. The key common ingredient in the architectural designs of these models is Channel-wise Self-Attention (CSA). We first show that CSA is an overall low-rank operation. Then, we propose an instance-Guided Low-rank Multi-Head selfattention (GLMHA) to replace the CSA for a considerable computational gain while closely retaining the original model performance. Unique to the proposed GLMHA is its ability to provide computational gain for both short and long input sequences. In particular, the gain is in terms of both Floating Point Operations (FLOPs) and parameter count reduction. This is in contrast to the existing popular computational complexity reduction techniques, e.g., Linformer, Performer, and Reformer, for whom FLOPs overpower the efficient design tricks for the shorter input sequences. Moreover, parameter reduction remains unaccounted for in the existing methods.We perform an extensive evaluation for the tasks of spectral reconstruction from RGB images, spectral reconstruction from snapshot compressive imaging, motion deblurring, and image deraining by enhancing the best-performing models with our GLMHA. Our results show up to a 7.7 Giga FLOPs reduction with 370K fewer parameters required to closely retain the original performance of the best-performing models that employ CSA.
- Abstract(参考訳): 画像復元とスペクトル再構成は、長年続くコンピュータビジョンタスクである。
現在、CNN変換器ハイブリッドモデルはこれらのタスクに最先端のパフォーマンスを提供する。
これらのモデルのアーキテクチャ設計において重要な要素は、チャネルワイド・セルフ・アテンション(CSA)である。
まず,CSAは全体の低ランク動作であることを示す。
そこで,本研究では,CSAを計算的ゲインに置き換えつつ,元のモデル性能を厳格に保ちつつ,インスタンス誘導型低ランクマルチヘッド自己アテンション(GLMHA)を提案する。
提案したGLMHAに共通するのは、短い入力シーケンスと長い入力シーケンスの両方に対して計算利得を提供する能力である。
特に、利得は浮動小数点演算 (FLOPs) とパラメータ数削減の両方の点である。
これは、FLOPが短い入力シーケンスの効率的な設計トリックを超越する、既存の一般的な計算複雑性削減技術であるLinformer、Performer、Reformerとは対照的である。
さらに,RGB画像からのスペクトル再構成,スナップショット圧縮画像からのスペクトル再構成,モーションデブロアリング,画像劣化といったタスクに対して,GLMHAによる最高の性能モデルの向上による広範囲な評価を行った。
以上の結果から,CSAを用いた最高の性能モデルの性能を維持するために必要なパラメータを370K削減した7.7ギガFLOPが得られた。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Boosting Image Restoration via Priors from Pre-trained Models [54.83907596825985]
我々は、OSFによるターゲット復元ネットワークの復元結果を改善するために、Pre-Train-Guided Refinement Module (PTG-RM)と呼ばれる軽量モジュールを学習する。
PTG-RMは、低照度強化、デラリニング、デブロアリング、デノナイジングなど、様々なタスクにおける様々なモデルの復元性能を効果的に向上させる。
論文 参考訳(メタデータ) (2024-03-11T15:11:57Z) - HIR-Diff: Unsupervised Hyperspectral Image Restoration Via Improved
Diffusion Models [38.74983301496911]
ハイパースペクトル画像(HSI)の復元は、劣化した観察からクリーンなイメージを復元することを目的としている。
既存のモデルに基づく手法は、複雑な画像の特徴を正確にモデル化するのに限界がある。
本稿では,事前学習拡散モデル(HIR-Diff)を用いた教師なしHSI復元フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T17:15:05Z) - LIR: A Lightweight Baseline for Image Restoration [4.187190284830909]
画像復元作業の本質的な特徴は、多くの作品で見落とされがちである。
LIRと呼ばれる画像復元のための軽量ベースラインネットワークを提案し、画像の効率よく復元し、劣化を除去する。
我々のLIRは、Pak Signal-to-Noise Ratio (PSNR)における最先端構造類似度指標(SSIM)および最先端モデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-02-02T12:39:47Z) - Parameter Efficient Adaptation for Image Restoration with Heterogeneous Mixture-of-Experts [52.39959535724677]
画像復元モデルの一般化を改善するための代替手法を提案する。
ローカル,グローバル,チャネル表現ベースをキャプチャするマルチブランチ設計のMixture-of-Experts (MoE) であるAdaptIRを提案する。
我々のAdaptIRは、単一劣化タスクにおける安定した性能を実現し、8時間間、微調整はわずか0.6%のパラメータしか持たず、ハイブリッド劣化タスクにおいて優れる。
論文 参考訳(メタデータ) (2023-12-12T14:27:59Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - GRAN: Ghost Residual Attention Network for Single Image Super Resolution [44.4178326950426]
本稿では,Ghost Residual Attention Block (GRAB) グループを導入し,標準的な畳み込み操作の欠点を克服する。
Ghost Moduleは、標準の畳み込みを置き換えるために線形操作を採用することで、本質的な機能の基盤となる情報を明らかにすることができる。
ベンチマークデータセットを用いて行った実験は,定性的・定量的に,本手法の優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-02-28T13:26:24Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。