論文の概要: Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring
- arxiv url: http://arxiv.org/abs/2211.12250v1
- Date: Tue, 22 Nov 2022 13:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:21:17.782442
- Title: Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring
- Title(参考訳): 高画質画像分解のための高効率周波数領域変換器
- Authors: Lingshun Kong, Jiangxin Dong, Mingqiang Li, Jianjun Ge, Jinshan Pan
- Abstract要約: 本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
- 参考スコア(独自算出の注目度): 39.720032882926176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an effective and efficient method that explores the properties of
Transformers in the frequency domain for high-quality image deblurring. Our
method is motivated by the convolution theorem that the correlation or
convolution of two signals in the spatial domain is equivalent to an
element-wise product of them in the frequency domain. This inspires us to
develop an efficient frequency domain-based self-attention solver (FSAS) to
estimate the scaled dot-product attention by an element-wise product operation
instead of the matrix multiplication in the spatial domain. In addition, we
note that simply using the naive feed-forward network (FFN) in Transformers
does not generate good deblurred results. To overcome this problem, we propose
a simple yet effective discriminative frequency domain-based FFN (DFFN), where
we introduce a gated mechanism in the FFN based on the Joint Photographic
Experts Group (JPEG) compression algorithm to discriminatively determine which
low- and high-frequency information of the features should be preserved for
latent clear image restoration. We formulate the proposed FSAS and DFFN into an
asymmetrical network based on an encoder and decoder architecture, where the
FSAS is only used in the decoder module for better image deblurring.
Experimental results show that the proposed method performs favorably against
the state-of-the-art approaches. Code will be available at
\url{https://github.com/kkkls/FFTformer}.
- Abstract(参考訳): 本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効率的に探索する手法を提案する。
本手法は,空間領域内の2つの信号の相関や畳み込みが周波数領域の要素単位積と等価であるという畳み込み定理に動機づけられている。
これにより,空間領域における行列の乗算に代えて,要素積演算によるスケールド・ドット積の注目度を推定する効率的な周波数領域ベースセルフアテンションソルバ(fsas)の開発が促進される。
さらに,トランスフォーマーのフィードフォワードネットワーク(FFN)を単純に使用すると,よい遅延結果が得られない点に留意する。
この問題を解決するために,我々は,画像復元のために,特徴の低周波・高周波情報をどれに保存すべきかを識別的に決定する共同写真専門家グループ(JPEG)圧縮アルゴリズムに基づいて,FFNにゲート機構を導入する,簡易かつ効果的な識別周波数領域ベースFFN(DFFN)を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化し、FSASはデコーダモジュールでのみ使用して画像の劣化を改善する。
実験の結果,提案手法は最先端手法に好適な効果を示した。
コードは \url{https://github.com/kkkls/FFTformer} で入手できる。
関連論文リスト
- F2former: When Fractional Fourier Meets Deep Wiener Deconvolution and Selective Frequency Transformer for Image Deblurring [8.296475046681696]
本稿では、空間周波数の統一表現であるFRFT(Fractional Fourier Transform)に基づく新しい手法を提案する。
提案手法の性能は,他のSOTA手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-03T17:05:12Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models [89.76587063609806]
画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。
ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-27T06:53:16Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Complementary Frequency-Varying Awareness Network for Open-Set
Fine-Grained Image Recognition [14.450381668547259]
オープンセット画像認識はコンピュータビジョンにおける課題である。
本稿では,高周波情報と低周波情報の両方をよりよく把握できる補完周波数変化認識ネットワークを提案する。
CFANに基づいて,CFAN-OSFGRと呼ばれるオープンセットのきめ細かい画像認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T08:15:36Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation
Localization [49.521622399483846]
汎用画像操作のローカライゼーションのための新しいエンド・ツー・エンド2ストリーム境界対応ネットワーク(TBNet)を提案する。
提案したTBNetは、MCCとF1の両方の観点から、最先端の汎用画像操作のローカライズ手法を大幅に上回ることができる。
論文 参考訳(メタデータ) (2021-08-10T08:22:05Z) - F-Drop&Match: GANs with a Dead Zone in the High-Frequency Domain [12.290010554180613]
本稿では,F-Drop(F-Drop)とF-Match(F-Match)という2つの新しいトレーニング手法を紹介する。
F−Dropは、識別器の入力画像から不要な高周波成分をフィルタリングする。
F-Matchは、よりリアルな画像を生成するために周波数領域における実画像と偽画像の差を最小限にする。
論文 参考訳(メタデータ) (2021-06-04T08:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。