論文の概要: Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models
- arxiv url: http://arxiv.org/abs/2307.14648v1
- Date: Thu, 27 Jul 2023 06:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:29:40.102780
- Title: Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models
- Title(参考訳): 拡散確率モデルに基づく空間周波数U-Net
- Authors: Xin Yuan, Linjie Li, Jianfeng Wang, Zhengyuan Yang, Kevin Lin, Zicheng
Liu and Lijuan Wang
- Abstract要約: 画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。
ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
- 参考スコア(独自算出の注目度): 89.76587063609806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the denoising diffusion probabilistic model (DDPM) in
wavelet space, instead of pixel space, for visual synthesis. Considering the
wavelet transform represents the image in spatial and frequency domains, we
carefully design a novel architecture SFUNet to effectively capture the
correlation for both domains. Specifically, in the standard denoising U-Net for
pixel data, we supplement the 2D convolutions and spatial-only attention layers
with our spatial frequency-aware convolution and attention modules to jointly
model the complementary information from spatial and frequency domains in
wavelet data. Our new architecture can be used as a drop-in replacement to the
pixel-based network and is compatible with the vanilla DDPM training process.
By explicitly modeling the wavelet signals, we find our model is able to
generate images with higher quality on CIFAR-10, FFHQ, LSUN-Bedroom, and
LSUN-Church datasets, than the pixel-based counterpart.
- Abstract(参考訳): 本稿では,視覚合成のためのピクセル空間ではなく,ウェーブレット空間における消音拡散確率モデル(ddpm)について検討する。
ウェーブレット変換が空間領域と周波数領域のイメージを表すことを考慮し,二つの領域の相関を効果的に捉えるために,新しいアーキテクチャsfunetを慎重に設計する。
具体的には,2次元畳み込みと空間のみのアテンション層を空間周波数認識畳み込みとアテンションモジュールで補うことで,ウェーブレットデータにおける空間領域と周波数領域からの補完情報を協調的にモデル化する。
我々の新しいアーキテクチャは、ピクセルベースのネットワークのドロップイン代替として使用することができ、バニラDDPMトレーニングプロセスと互換性がある。
CIFAR-10, FFHQ, LSUN-Bedroom, LSUN-Churchデータセット上で, ピクセルベースよりも高画質の画像を生成することができる。
関連論文リスト
- MDNF: Multi-Diffusion-Nets for Neural Fields on Meshes [5.284425534494986]
本稿では,空間領域と周波数領域にまたがる多分解能を持つトライアングルメッシュ上でのニューラルフィールドを表現する新しいフレームワークを提案する。
ニューラルフーリエフィルタバンク(NFFB)にインスパイアされた我々のアーキテクチャは、より微細な分解能レベルと高い周波数帯域を関連付けることによって周波数領域と周波数領域を分解する。
本稿では, 合成RGB関数, UVテクスチャ座標, 正規化など, 多様なニューラルネットワークへの応用を通じて, 本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-04T19:08:13Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - SpACNN-LDVAE: Spatial Attention Convolutional Latent Dirichlet Variational Autoencoder for Hyperspectral Pixel Unmixing [1.8024397171920885]
この研究は、局所空間コンテキストを考慮したLDVAE (Latent Dirichlet Variational Autoencoder) ピクセルアンミックス方式を拡張した。
提案手法は,等方性畳み込みニューラルネットワークを用いて,エンドメンバー上のディリクレ分布として画素を符号化する。
論文 参考訳(メタデータ) (2023-11-17T18:45:00Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring [39.720032882926176]
本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
論文 参考訳(メタデータ) (2022-11-22T13:08:03Z) - DPFNet: A Dual-branch Dilated Network with Phase-aware Fourier
Convolution for Low-light Image Enhancement [1.2645663389012574]
低照度画像の高精細化は、低照度画像から通常の露光画像を復元することを目的とした古典的なコンピュータビジョン問題である。
この分野でよく使われる畳み込みニューラルネットワークは、空間領域の低周波局所構造の特徴をサンプリングするのに長けている。
周波数位相のセマンティクスの制約の下で高品質なテクスチャの詳細を復元できるフーリエ係数を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2022-09-16T13:56:09Z) - FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete
Cosine Transform [16.439669339293747]
単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。
高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。
本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。
論文 参考訳(メタデータ) (2021-11-21T11:49:12Z) - Wavelet-Based Network For High Dynamic Range Imaging [64.66969585951207]
光学フローベースやエンド・ツー・エンドのディープラーニングベースのソリューションのような既存の方法は、詳細な復元やゴーストを除去する際にエラーを起こしやすい。
本研究では、周波数領域でHDR融合を行うための新しい周波数誘導型エンド・ツー・エンドディープニューラルネットワーク(FNet)を提案し、ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。
低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。
論文 参考訳(メタデータ) (2021-08-03T12:26:33Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z) - Wavelet Integrated CNNs for Noise-Robust Image Classification [51.18193090255933]
我々は、離散ウェーブレット変換(DWT)により、最大プール、ストライド畳み込み、平均プールを置き換えることでCNNを強化する。
VGG、ResNets、DenseNetのウェーブレット統合バージョンであるWaveCNetsは、バニラバージョンよりも精度が高く、ノイズ・ロバスト性も向上している。
論文 参考訳(メタデータ) (2020-05-07T09:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。