論文の概要: Diffusion Transformer meets Multi-level Wavelet Spectrum for Single Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2511.01175v2
- Date: Tue, 04 Nov 2025 05:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.091412
- Title: Diffusion Transformer meets Multi-level Wavelet Spectrum for Single Image Super-Resolution
- Title(参考訳): 単一画像超解像のための拡散変換器とマルチレベルウェーブレットスペクトル
- Authors: Peng Du, Hui Li, Han Xu, Paul Barom Jeon, Dongwook Lee, Daehyun Ji, Ran Yang, Feng Zhu,
- Abstract要約: SR(DTWSR)のための画像ウェーブレットスペクトルに基づく拡散変換器モデルを提案する。
DTWSRは拡散モデルと変圧器の優位性を取り入れ、マルチスケール周波数サブバンド間の相互関係を捉える。
デュアルデコーダは、画像生成におけるアライメントを省略することなく、低周波サブバンドと高周波サブバンドの異なるばらつきを扱うよう精巧に設計されている。
- 参考スコア(独自算出の注目度): 15.056888813012451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete Wavelet Transform (DWT) has been widely explored to enhance the performance of image superresolution (SR). Despite some DWT-based methods improving SR by capturing fine-grained frequency signals, most existing approaches neglect the interrelations among multiscale frequency sub-bands, resulting in inconsistencies and unnatural artifacts in the reconstructed images. To address this challenge, we propose a Diffusion Transformer model based on image Wavelet spectra for SR (DTWSR). DTWSR incorporates the superiority of diffusion models and transformers to capture the interrelations among multiscale frequency sub-bands, leading to a more consistence and realistic SR image. Specifically, we use a Multi-level Discrete Wavelet Transform to decompose images into wavelet spectra. A pyramid tokenization method is proposed which embeds the spectra into a sequence of tokens for transformer model, facilitating to capture features from both spatial and frequency domain. A dual-decoder is designed elaborately to handle the distinct variances in low-frequency and high-frequency sub-bands, without omitting their alignment in image generation. Extensive experiments on multiple benchmark datasets demonstrate the effectiveness of our method, with high performance on both perception quality and fidelity.
- Abstract(参考訳): 離散ウェーブレット変換(DWT)は画像超解像(SR)の性能を高めるために広く研究されている。
細粒度周波数信号を捕捉してSRを改善するDWTベースの手法はいくつかあるが、既存のアプローチのほとんどは、マルチスケールの周波数サブバンド間の相互関係を無視し、再構成された画像に矛盾と不自然なアーティファクトをもたらす。
この課題に対処するために,SR(DTWSR)のための画像ウェーブレットスペクトルに基づく拡散変換器モデルを提案する。
DTWSRは拡散モデルとトランスフォーマーの優位性を組み込んで、マルチスケールの周波数サブバンド間の相互関係を捉え、よりコンピレンスでリアルなSR画像を生み出す。
具体的には、マルチレベル離散ウェーブレット変換を用いて、画像をウェーブレットスペクトルに分解する。
スペクトルを変圧器モデルのための一連のトークンに埋め込むピラミッドトークン化法を提案し,空間領域と周波数領域の両方の特徴を捉えることを容易にする。
デュアルデコーダは、画像生成におけるアライメントを省略することなく、低周波サブバンドと高周波サブバンドの異なるばらつきを扱うよう精巧に設計されている。
複数のベンチマークデータセットに対する大規模な実験により,知覚品質と忠実度の両方において高い性能で本手法の有効性が示された。
関連論文リスト
- Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Dual-domain Modulation Network for Lightweight Image Super-Resolution [26.992373105057684]
軽量画像超解像(SR)は、低解像度画像から限られた計算コストで高解像度画像を再構成することを目的としている。
既存の周波数ベースSR法では、全体構造と高周波部品の再構築のバランスが取れない。
本稿では,ウェーブレット情報とフーリエ情報の両方を導入することで,コスト削減を図りながら,高周波特徴と全体のSR構造再構築を両立させることができることを示す。
論文 参考訳(メタデータ) (2025-03-13T04:59:46Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - Local Implicit Wavelet Transformer for Arbitrary-Scale Super-Resolution [15.610136214020947]
暗黙の神経表現は、最近、画像の任意のスケールの超解像(SR)において有望な可能性を証明している。
既存のほとんどの手法は、クエリされた座標と近くの特徴のアンサンブルに基づいて、SR画像中のピクセルを予測する。
本稿では,高周波テクスチャの再現性を高めるために,LIWT(Local Implicit Wavelet Transformer)を提案する。
論文 参考訳(メタデータ) (2024-11-10T12:21:14Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - FreqINR: Frequency Consistency for Implicit Neural Representation with Adaptive DCT Frequency Loss [5.349799154834945]
本稿では、新しい任意スケール超解像法であるFreqINR(FreqINR)について述べる。
トレーニングでは,適応離散コサイン変換周波数損失(adaptive Discrete Cosine Transform Frequency Loss,ADFL)を用いて,HR画像と地絡画像の周波数ギャップを最小化する。
推論の際には,低分解能(LR)画像と地軸画像のスペクトルコヒーレンスを維持するために受容場を拡張した。
論文 参考訳(メタデータ) (2024-08-25T03:53:17Z) - Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion [28.049668999586583]
本稿では,CLIP-Fourier Guided Wavelet Diffusion(CFWD)による新しい低照度画像強調手法を提案する。
CFWDは、複数のウェーブレット変換によって生成される周波数領域空間におけるマルチモーダル視覚言語情報を活用して、拡張プロセスの導出を行う。
提案手法は既存の最先端手法よりも優れ,画像品質と雑音抑制の大幅な進歩を実現している。
論文 参考訳(メタデータ) (2024-01-08T10:08:48Z) - Frequency-Aware Transformer for Learned Image Compression [64.28698450919647]
学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。
FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。
また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
論文 参考訳(メタデータ) (2023-10-25T05:59:25Z) - A Scale-Arbitrary Image Super-Resolution Network Using Frequency-domain
Information [42.55177009667711]
画像超解像(SR)は、低分解能(LR)画像において失われた高周波情報を復元する技術である。
本稿では、周波数領域における画像の特徴を考察し、新しいスケール・アービタリー画像SRネットワークを設計する。
論文 参考訳(メタデータ) (2022-12-08T15:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。