論文の概要: Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring
- arxiv url: http://arxiv.org/abs/2211.12250v1
- Date: Tue, 22 Nov 2022 13:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:21:17.782442
- Title: Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring
- Title(参考訳): 高画質画像分解のための高効率周波数領域変換器
- Authors: Lingshun Kong, Jiangxin Dong, Mingqiang Li, Jianjun Ge, Jinshan Pan
- Abstract要約: 本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
- 参考スコア(独自算出の注目度): 39.720032882926176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an effective and efficient method that explores the properties of
Transformers in the frequency domain for high-quality image deblurring. Our
method is motivated by the convolution theorem that the correlation or
convolution of two signals in the spatial domain is equivalent to an
element-wise product of them in the frequency domain. This inspires us to
develop an efficient frequency domain-based self-attention solver (FSAS) to
estimate the scaled dot-product attention by an element-wise product operation
instead of the matrix multiplication in the spatial domain. In addition, we
note that simply using the naive feed-forward network (FFN) in Transformers
does not generate good deblurred results. To overcome this problem, we propose
a simple yet effective discriminative frequency domain-based FFN (DFFN), where
we introduce a gated mechanism in the FFN based on the Joint Photographic
Experts Group (JPEG) compression algorithm to discriminatively determine which
low- and high-frequency information of the features should be preserved for
latent clear image restoration. We formulate the proposed FSAS and DFFN into an
asymmetrical network based on an encoder and decoder architecture, where the
FSAS is only used in the decoder module for better image deblurring.
Experimental results show that the proposed method performs favorably against
the state-of-the-art approaches. Code will be available at
\url{https://github.com/kkkls/FFTformer}.
- Abstract(参考訳): 本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効率的に探索する手法を提案する。
本手法は,空間領域内の2つの信号の相関や畳み込みが周波数領域の要素単位積と等価であるという畳み込み定理に動機づけられている。
これにより,空間領域における行列の乗算に代えて,要素積演算によるスケールド・ドット積の注目度を推定する効率的な周波数領域ベースセルフアテンションソルバ(fsas)の開発が促進される。
さらに,トランスフォーマーのフィードフォワードネットワーク(FFN)を単純に使用すると,よい遅延結果が得られない点に留意する。
この問題を解決するために,我々は,画像復元のために,特徴の低周波・高周波情報をどれに保存すべきかを識別的に決定する共同写真専門家グループ(JPEG)圧縮アルゴリズムに基づいて,FFNにゲート機構を導入する,簡易かつ効果的な識別周波数領域ベースFFN(DFFN)を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化し、FSASはデコーダモジュールでのみ使用して画像の劣化を改善する。
実験の結果,提案手法は最先端手法に好適な効果を示した。
コードは \url{https://github.com/kkkls/FFTformer} で入手できる。
関連論文リスト
- Spatial and Frequency Domain Adaptive Fusion Network for Image Deblurring [0.0]
Image Deblurringは、対応するぼやけた画像から潜むシャープなイメージを再構築することを目的としている。
本稿では、この制限に対応するために、空間周波数領域適応核融合ネットワーク(SFAFNet)を提案する。
我々のSFAFNetは、一般的に使用されているベンチマークにおける最先端のアプローチと比較して好意的に機能する。
論文 参考訳(メタデータ) (2025-02-20T02:43:55Z) - FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - F2former: When Fractional Fourier Meets Deep Wiener Deconvolution and Selective Frequency Transformer for Image Deblurring [8.296475046681696]
本稿では、空間周波数の統一表現であるFRFT(Fractional Fourier Transform)に基づく新しい手法を提案する。
提案手法の性能は,他のSOTA手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-03T17:05:12Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models [89.76587063609806]
画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。
ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-27T06:53:16Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - F-Drop&Match: GANs with a Dead Zone in the High-Frequency Domain [12.290010554180613]
本稿では,F-Drop(F-Drop)とF-Match(F-Match)という2つの新しいトレーニング手法を紹介する。
F−Dropは、識別器の入力画像から不要な高周波成分をフィルタリングする。
F-Matchは、よりリアルな画像を生成するために周波数領域における実画像と偽画像の差を最小限にする。
論文 参考訳(メタデータ) (2021-06-04T08:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。