Fugu-MT 論文翻訳(概要): Efficient Frequency Domain-based Transformers for High-Quality Image Deblurring

論文の概要: Efficient Frequency Domain-based Transformers for High-Quality Image Deblurring

arxiv url: http://arxiv.org/abs/2211.12250v1
Date: Tue, 22 Nov 2022 13:08:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 18:21:17.782442
Title: Efficient Frequency Domain-based Transformers for High-Quality Image Deblurring
Title（参考訳）: 高画質画像分解のための高効率周波数領域変換器
Authors: Lingshun Kong, Jiangxin Dong, Mingqiang Li, Jianjun Ge, Jinshan Pan
Abstract要約: 本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
参考スコア（独自算出の注目度）: 39.720032882926176
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an effective and efficient method that explores the properties of Transformers in the frequency domain for high-quality image deblurring. Our method is motivated by the convolution theorem that the correlation or convolution of two signals in the spatial domain is equivalent to an element-wise product of them in the frequency domain. This inspires us to develop an efficient frequency domain-based self-attention solver (FSAS) to estimate the scaled dot-product attention by an element-wise product operation instead of the matrix multiplication in the spatial domain. In addition, we note that simply using the naive feed-forward network (FFN) in Transformers does not generate good deblurred results. To overcome this problem, we propose a simple yet effective discriminative frequency domain-based FFN (DFFN), where we introduce a gated mechanism in the FFN based on the Joint Photographic Experts Group (JPEG) compression algorithm to discriminatively determine which low- and high-frequency information of the features should be preserved for latent clear image restoration. We formulate the proposed FSAS and DFFN into an asymmetrical network based on an encoder and decoder architecture, where the FSAS is only used in the decoder module for better image deblurring. Experimental results show that the proposed method performs favorably against the state-of-the-art approaches. Code will be available at \url{https://github.com/kkkls/FFTformer}.
Abstract（参考訳）: 本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効率的に探索する手法を提案する。本手法は,空間領域内の2つの信号の相関や畳み込みが周波数領域の要素単位積と等価であるという畳み込み定理に動機づけられている。これにより,空間領域における行列の乗算に代えて,要素積演算によるスケールド・ドット積の注目度を推定する効率的な周波数領域ベースセルフアテンションソルバ(fsas)の開発が促進される。さらに,トランスフォーマーのフィードフォワードネットワーク(FFN)を単純に使用すると,よい遅延結果が得られない点に留意する。この問題を解決するために,我々は,画像復元のために,特徴の低周波・高周波情報をどれに保存すべきかを識別的に決定する共同写真専門家グループ(JPEG)圧縮アルゴリズムに基づいて,FFNにゲート機構を導入する,簡易かつ効果的な識別周波数領域ベースFFN(DFFN)を提案する。我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化し、FSASはデコーダモジュールでのみ使用して画像の劣化を改善する。実験の結果,提案手法は最先端手法に好適な効果を示した。コードは \url{https://github.com/kkkls/FFTformer} で入手できる。

関連論文リスト

Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-25T12:23:10Z)
Spatial and Frequency Domain Adaptive Fusion Network for Image Deblurring [0.0]
Image Deblurringは、対応するぼやけた画像から潜むシャープなイメージを再構築することを目的としている。本稿では、この制限に対応するために、空間周波数領域適応核融合ネットワーク(SFAFNet)を提案する。我々のSFAFNetは、一般的に使用されているベンチマークにおける最先端のアプローチと比較して好意的に機能する。
論文参考訳（メタデータ） (2025-02-20T02:43:55Z)
FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文参考訳（メタデータ） (2025-02-06T07:24:34Z)
F2former: When Fractional Fourier Meets Deep Wiener Deconvolution and Selective Frequency Transformer for Image Deblurring [8.296475046681696]
本稿では、空間周波数の統一表現であるFRFT(Fractional Fourier Transform)に基づく新しい手法を提案する。提案手法の性能は,他のSOTA手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-09-03T17:05:12Z)
Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文参考訳（メタデータ） (2024-02-28T09:27:41Z)
Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models [89.76587063609806]
画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-07-27T06:53:16Z)
Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文参考訳（メタデータ） (2023-07-26T07:42:28Z)
Complementary Frequency-Varying Awareness Network for Open-Set Fine-Grained Image Recognition [14.450381668547259]
オープンセット画像認識はコンピュータビジョンにおける課題である。本稿では,高周波情報と低周波情報の両方をよりよく把握できる補完周波数変化認識ネットワークを提案する。 CFANに基づいて,CFAN-OSFGRと呼ばれるオープンセットのきめ細かい画像認識手法を提案する。
論文参考訳（メタデータ） (2023-07-14T08:15:36Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation Localization [49.521622399483846]
汎用画像操作のローカライゼーションのための新しいエンド・ツー・エンド2ストリーム境界対応ネットワーク(TBNet)を提案する。提案したTBNetは、MCCとF1の両方の観点から、最先端の汎用画像操作のローカライズ手法を大幅に上回ることができる。
論文参考訳（メタデータ） (2021-08-10T08:22:05Z)
F-Drop&Match: GANs with a Dead Zone in the High-Frequency Domain [12.290010554180613]
本稿では,F-Drop(F-Drop)とF-Match(F-Match)という2つの新しいトレーニング手法を紹介する。 F−Dropは、識別器の入力画像から不要な高周波成分をフィルタリングする。 F-Matchは、よりリアルな画像を生成するために周波数領域における実画像と偽画像の差を最小限にする。
論文参考訳（メタデータ） (2021-06-04T08:51:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。