論文の概要: Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models
- arxiv url: http://arxiv.org/abs/2307.14648v1
- Date: Thu, 27 Jul 2023 06:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:29:40.102780
- Title: Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models
- Title(参考訳): 拡散確率モデルに基づく空間周波数U-Net
- Authors: Xin Yuan, Linjie Li, Jianfeng Wang, Zhengyuan Yang, Kevin Lin, Zicheng
Liu and Lijuan Wang
- Abstract要約: 画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。
ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
- 参考スコア(独自算出の注目度): 89.76587063609806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the denoising diffusion probabilistic model (DDPM) in
wavelet space, instead of pixel space, for visual synthesis. Considering the
wavelet transform represents the image in spatial and frequency domains, we
carefully design a novel architecture SFUNet to effectively capture the
correlation for both domains. Specifically, in the standard denoising U-Net for
pixel data, we supplement the 2D convolutions and spatial-only attention layers
with our spatial frequency-aware convolution and attention modules to jointly
model the complementary information from spatial and frequency domains in
wavelet data. Our new architecture can be used as a drop-in replacement to the
pixel-based network and is compatible with the vanilla DDPM training process.
By explicitly modeling the wavelet signals, we find our model is able to
generate images with higher quality on CIFAR-10, FFHQ, LSUN-Bedroom, and
LSUN-Church datasets, than the pixel-based counterpart.
- Abstract(参考訳): 本稿では,視覚合成のためのピクセル空間ではなく,ウェーブレット空間における消音拡散確率モデル(ddpm)について検討する。
ウェーブレット変換が空間領域と周波数領域のイメージを表すことを考慮し,二つの領域の相関を効果的に捉えるために,新しいアーキテクチャsfunetを慎重に設計する。
具体的には,2次元畳み込みと空間のみのアテンション層を空間周波数認識畳み込みとアテンションモジュールで補うことで,ウェーブレットデータにおける空間領域と周波数領域からの補完情報を協調的にモデル化する。
我々の新しいアーキテクチャは、ピクセルベースのネットワークのドロップイン代替として使用することができ、バニラDDPMトレーニングプロセスと互換性がある。
CIFAR-10, FFHQ, LSUN-Bedroom, LSUN-Churchデータセット上で, ピクセルベースよりも高画質の画像を生成することができる。
関連論文リスト
- Low-light Stereo Image Enhancement and De-noising in the Low-frequency
Information Enhanced Image Space [5.1569866461097185]
同時に高音化・低音化を行う手法が提案されている。
低周波情報拡張モジュール (IEM) は雑音を抑え, 新たな画像空間を創出するために提案される。
長距離空間依存を符号化するために,チャネル間および空間コンテキスト情報マイニングモジュール(CSM)を提案する。
エンコーダ-デコーダ構造が構築され、クロスビューとクロススケールな特徴相互作用が組み込まれている。
論文 参考訳(メタデータ) (2024-01-15T15:03:32Z) - DiffiT: Diffusion Vision Transformers for Image Generation [94.50195596375316]
Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Spatial-Frequency Attention for Image Denoising [22.993509525990998]
本研究では,長距離依存性を利用した空間周波数アテンションネットワーク(SFANet)を提案する。
複数のdenoisingベンチマークの実験は、SFANetネットワークのリードパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-02-27T09:07:15Z) - Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring [39.720032882926176]
本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
論文 参考訳(メタデータ) (2022-11-22T13:08:03Z) - DPFNet: A Dual-branch Dilated Network with Phase-aware Fourier
Convolution for Low-light Image Enhancement [1.2645663389012574]
低照度画像の高精細化は、低照度画像から通常の露光画像を復元することを目的とした古典的なコンピュータビジョン問題である。
この分野でよく使われる畳み込みニューラルネットワークは、空間領域の低周波局所構造の特徴をサンプリングするのに長けている。
周波数位相のセマンティクスの制約の下で高品質なテクスチャの詳細を復元できるフーリエ係数を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2022-09-16T13:56:09Z) - FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete
Cosine Transform [16.439669339293747]
単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。
高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。
本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。
論文 参考訳(メタデータ) (2021-11-21T11:49:12Z) - Wavelet-Based Network For High Dynamic Range Imaging [64.66969585951207]
光学フローベースやエンド・ツー・エンドのディープラーニングベースのソリューションのような既存の方法は、詳細な復元やゴーストを除去する際にエラーを起こしやすい。
本研究では、周波数領域でHDR融合を行うための新しい周波数誘導型エンド・ツー・エンドディープニューラルネットワーク(FNet)を提案し、ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。
低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。
論文 参考訳(メタデータ) (2021-08-03T12:26:33Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z) - Wavelet Integrated CNNs for Noise-Robust Image Classification [51.18193090255933]
我々は、離散ウェーブレット変換(DWT)により、最大プール、ストライド畳み込み、平均プールを置き換えることでCNNを強化する。
VGG、ResNets、DenseNetのウェーブレット統合バージョンであるWaveCNetsは、バニラバージョンよりも精度が高く、ノイズ・ロバスト性も向上している。
論文 参考訳(メタデータ) (2020-05-07T09:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。