論文の概要: Local Implicit Wavelet Transformer for Arbitrary-Scale Super-Resolution
- arxiv url: http://arxiv.org/abs/2411.06442v1
- Date: Sun, 10 Nov 2024 12:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:49.209199
- Title: Local Implicit Wavelet Transformer for Arbitrary-Scale Super-Resolution
- Title(参考訳): 任意スケール超解像用局所入射ウェーブレット変換器
- Authors: Minghong Duan, Linhao Qu, Shaolei Liu, Manning Wang,
- Abstract要約: 暗黙の神経表現は、最近、画像の任意のスケールの超解像(SR)において有望な可能性を証明している。
既存のほとんどの手法は、クエリされた座標と近くの特徴のアンサンブルに基づいて、SR画像中のピクセルを予測する。
本稿では,高周波テクスチャの再現性を高めるために,LIWT(Local Implicit Wavelet Transformer)を提案する。
- 参考スコア(独自算出の注目度): 15.610136214020947
- License:
- Abstract: Implicit neural representations have recently demonstrated promising potential in arbitrary-scale Super-Resolution (SR) of images. Most existing methods predict the pixel in the SR image based on the queried coordinate and ensemble nearby features, overlooking the importance of incorporating high-frequency prior information in images, which results in limited performance in reconstructing high-frequency texture details in images. To address this issue, we propose the Local Implicit Wavelet Transformer (LIWT) to enhance the restoration of high-frequency texture details. Specifically, we decompose the features extracted by an encoder into four sub-bands containing different frequency information using Discrete Wavelet Transform (DWT). We then introduce the Wavelet Enhanced Residual Module (WERM) to transform these four sub-bands into high-frequency priors, followed by utilizing the Wavelet Mutual Projected Fusion (WMPF) and the Wavelet-aware Implicit Attention (WIA) to fully exploit the high-frequency prior information for recovering high-frequency details in images. We conducted extensive experiments on benchmark datasets to validate the effectiveness of LIWT. Both qualitative and quantitative results demonstrate that LIWT achieves promising performance in arbitrary-scale SR tasks, outperforming other state-of-the-art methods. The code is available at https://github.com/dmhdmhdmh/LIWT.
- Abstract(参考訳): 暗黙の神経表現は、最近、画像の任意のスケールの超解像(SR)において有望な可能性を証明している。
既存のほとんどの手法では、画像に高周波先行情報を組み込むことの重要性を見越して、クエリされた座標と近傍の特徴に基づいて、SR画像の画素を予測し、画像内の高周波テクスチャ詳細を再構成する際の限られた性能をもたらす。
この問題に対処するため,高周波テクスチャの再現性を高めるために,LIWT(Local Implicit Wavelet Transformer)を提案する。
具体的には、エンコーダによって抽出された特徴を、離散ウェーブレット変換(DWT)を用いて異なる周波数情報を含む4つのサブバンドに分解する。
次に、Wavelet Enhanced Residual Module (WERM)を導入し、これら4つのサブバンドを高周波プリセットに変換し、次いでWavelet Mutual Projected Fusion (WMPF) とWavelet-aware Implicit Attention (WIA) を併用して、高周波数の詳細を復元する。
LIWTの有効性を検証するため,ベンチマークデータセットの広範な実験を行った。
定性的かつ定量的な結果は、LIWTが任意のスケールのSRタスクにおいて有望な性能を達成し、他の最先端手法よりも優れていることを示している。
コードはhttps://github.com/dmhdmhdmh/LIWTで公開されている。
関連論文リスト
- Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution [6.367865391518726]
トランスフォーマーベースモデルは、画像超解像(SR)を含む低レベル視覚タスクにおいて顕著な結果を得た
グローバルにより多くの入力ピクセルを活性化するために、ハイブリッドアテンションモデルが提案されている。
ウェーブレット損失を利用してTransformerモデルをトレーニングし、定量的および主観的性能を向上させる。
論文 参考訳(メタデータ) (2024-04-17T11:25:19Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete
Cosine Transform [16.439669339293747]
単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。
高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。
本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。
論文 参考訳(メタデータ) (2021-11-21T11:49:12Z) - Wavelet-Based Network For High Dynamic Range Imaging [64.66969585951207]
光学フローベースやエンド・ツー・エンドのディープラーニングベースのソリューションのような既存の方法は、詳細な復元やゴーストを除去する際にエラーを起こしやすい。
本研究では、周波数領域でHDR融合を行うための新しい周波数誘導型エンド・ツー・エンドディープニューラルネットワーク(FNet)を提案し、ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。
低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。
論文 参考訳(メタデータ) (2021-08-03T12:26:33Z) - TWIST-GAN: Towards Wavelet Transform and Transferred GAN for
Spatio-Temporal Single Image Super Resolution [4.622977798361014]
単一画像スーパーレゾリューション(sisr)は、空間解像度の低いリモートセンシング画像から、微細な空間解像度を持つ高解像度画像を生成する。
深層学習とGAN(Generative Adversarial Network)は、単一画像超解像(SISR)の課題を突破した。
論文 参考訳(メタデータ) (2021-04-20T22:12:38Z) - Wavelet Integrated CNNs for Noise-Robust Image Classification [51.18193090255933]
我々は、離散ウェーブレット変換(DWT)により、最大プール、ストライド畳み込み、平均プールを置き換えることでCNNを強化する。
VGG、ResNets、DenseNetのウェーブレット統合バージョンであるWaveCNetsは、バニラバージョンよりも精度が高く、ノイズ・ロバスト性も向上している。
論文 参考訳(メタデータ) (2020-05-07T09:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。