論文の概要: Dimensionality-Varying Diffusion Process
- arxiv url: http://arxiv.org/abs/2211.16032v1
- Date: Tue, 29 Nov 2022 09:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:18:20.563318
- Title: Dimensionality-Varying Diffusion Process
- Title(参考訳): 次元変化拡散過程
- Authors: Han Zhang, Ruili Feng, Zhantao Yang, Lianghua Huang, Yu Liu, Yifei
Zhang, Yujun Shen, Deli Zhao, Jingren Zhou, Fan Cheng
- Abstract要約: 拡散モデルは、信号破壊プロセスを逆転して新しいデータを生成することを学習する。
信号分解による前方拡散過程の理論的一般化を行う。
FFHQで訓練された拡散モデルのFIDを,52.40から10.46までの1024Times1024$解像度で改善する。
- 参考スコア(独自算出の注目度): 52.52681373641533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models, which learn to reverse a signal destruction process to
generate new data, typically require the signal at each step to have the same
dimension. We argue that, considering the spatial redundancy in image signals,
there is no need to maintain a high dimensionality in the evolution process,
especially in the early generation phase. To this end, we make a theoretical
generalization of the forward diffusion process via signal decomposition.
Concretely, we manage to decompose an image into multiple orthogonal components
and control the attenuation of each component when perturbing the image. That
way, along with the noise strength increasing, we are able to diminish those
inconsequential components and thus use a lower-dimensional signal to represent
the source, barely losing information. Such a reformulation allows to vary
dimensions in both training and inference of diffusion models. Extensive
experiments on a range of datasets suggest that our approach substantially
reduces the computational cost and achieves on-par or even better synthesis
performance compared to baseline methods. We also show that our strategy
facilitates high-resolution image synthesis and improves FID of diffusion model
trained on FFHQ at $1024\times1024$ resolution from 52.40 to 10.46. Code and
models will be made publicly available.
- Abstract(参考訳): 拡散モデルは、信号破壊過程を逆転して新しいデータを生成することを学習するが、通常、各ステップで同じ次元の信号を必要とする。
我々は,画像信号の空間的冗長性を考慮すると,特に初期発生段階において,進化過程の高次元性を維持する必要はないと主張する。
この目的のために,信号分解による前方拡散過程の理論的一般化を行う。
具体的には、画像を複数の直交成分に分解し、画像を摂動する際に各成分の減衰を制御する。
このようにして、ノイズ強度の増大とともに、これらの不連続成分を減らし、低次元信号を用いて音源を表現し、ほとんど情報を失う。
このような再構成は拡散モデルのトレーニングと推論の両方において次元を変えることができる。
一連のデータセットに対する大規模な実験により,本手法は計算コストを大幅に削減し,ベースライン法に比べてオンパーあるいはさらに優れた合成性能を実現することが示唆された。
また,この戦略は高分解能画像合成を促進し,FFHQで訓練された拡散モデルのFIDを52.40から10.46までの1024\times1024$解像度で改善することを示す。
コードとモデルは公開される予定だ。
関連論文リスト
- Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。
潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。
これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文 参考訳(メタデータ) (2024-03-14T12:58:28Z) - Decoupled Data Consistency with Diffusion Purification for Image
Restoration [10.491534002121044]
本稿では,データ整合性ステップから逆処理を分離することで問題に対処する拡散型画像復元法を提案する。
我々の手法は多目的性を示し、潜在空間における効率的な問題解決に高い適応性を与える。
提案手法の有効性は,画像のデノイング,デブロアリング,インペイント,超解像など,画像修復作業における総合的な実験を通じて検証される。
論文 参考訳(メタデータ) (2024-03-10T00:47:05Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。