論文の概要: Boosting Latent Diffusion with Flow Matching
- arxiv url: http://arxiv.org/abs/2312.07360v1
- Date: Tue, 12 Dec 2023 15:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:39:25.511992
- Title: Boosting Latent Diffusion with Flow Matching
- Title(参考訳): 流れマッチングによる潜性拡散の促進
- Authors: Johannes S. Fischer and Ming Gui and Pingchuan Ma and Nick Stracke and
Stefan A. Baumann and Bj\"orn Ommer
- Abstract要約: フローマッチング(FM)はより高速なトレーニングと推論を提供するが、合成の多様性は低い。
拡散モデルと畳み込みデコーダの間にFMを導入することで高分解能画像合成が実現できることを示す。
我々は,計算コストを最小限に抑えて,最先端の高解像度画像合成を10242ドルで実現した。
- 参考スコア(独自算出の注目度): 3.293909266784793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been tremendous progress in visual synthesis and the
underlying generative models. Here, diffusion models (DMs) stand out
particularly, but lately, flow matching (FM) has also garnered considerable
interest. While DMs excel in providing diverse images, they suffer from long
training and slow generation. With latent diffusion, these issues are only
partially alleviated. Conversely, FM offers faster training and inference but
exhibits less diversity in synthesis. We demonstrate that introducing FM
between the Diffusion model and the convolutional decoder offers
high-resolution image synthesis with reduced computational cost and model size.
Diffusion can then efficiently provide the necessary generation diversity. FM
compensates for the lower resolution, mapping the small latent space to a
high-dimensional one. Subsequently, the convolutional decoder of the LDM maps
these latents to high-resolution images. By combining the diversity of DMs, the
efficiency of FMs, and the effectiveness of convolutional decoders, we achieve
state-of-the-art high-resolution image synthesis at $1024^2$ with minimal
computational cost. Importantly, our approach is orthogonal to recent
approximation and speed-up strategies for the underlying DMs, making it easily
integrable into various DM frameworks.
- Abstract(参考訳): 近年,視覚合成と基礎となる生成モデルが飛躍的に進歩している。
ここでは拡散モデル(DM)が特に際立っているが、最近はフローマッチング(FM)も注目されている。
dmsは多様な画像を提供するのに優れているが、長い訓練と遅い生成に苦しむ。
潜在拡散により、これらの問題は部分的に緩和されるのみである。
逆にFMはより高速なトレーニングと推論を提供するが、合成の多様性は低い。
拡散モデルと畳み込みデコーダの間にfmを導入することで,計算コストとモデルサイズを低減した高分解能画像合成が可能となる。
拡散は必要な生成の多様性を効率的に提供することができる。
FMは低分解能を補正し、小さな潜在空間を高次元空間にマッピングする。
その後、ldmの畳み込みデコーダはこれらの潜像を高解像度画像にマッピングする。
DMの多様性,FMの効率,畳み込みデコーダの有効性を組み合わせることで,1024^2$の最先端高解像度画像合成を最小計算コストで実現する。
重要な点として,本手法は近年のDMの近似と高速化戦略と直交しており,様々なDMフレームワークに容易に統合可能である。
関連論文リスト
- Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Fast Diffusion Model [122.36693015093041]
拡散モデル(DM)は、複雑なデータ分布を捉える能力を持つ様々な分野に採用されている。
本稿では,DM最適化の観点から,高速拡散モデル (FDM) を提案する。
論文 参考訳(メタデータ) (2023-06-12T09:38:04Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - CoLa-Diff: Conditional Latent Diffusion Model for Multi-Modal MRI
Synthesis [11.803971719704721]
ほとんどの拡散ベースのMRI合成モデルは単一のモードを使用している。
拡散型多モードMRI合成モデル、すなわち条件付き潜在拡散モデル(CoLa-Diff)を提案する。
実験により、CoLa-Diffは他の最先端MRI合成法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-24T15:46:10Z) - Dimensionality-Varying Diffusion Process [52.52681373641533]
拡散モデルは、信号破壊プロセスを逆転して新しいデータを生成することを学習する。
信号分解による前方拡散過程の理論的一般化を行う。
FFHQで訓練された拡散モデルのFIDを,52.40から10.46までの1024Times1024$解像度で改善する。
論文 参考訳(メタデータ) (2022-11-29T09:05:55Z) - Representation Learning with Diffusion Models [0.0]
拡散モデル (DM) は画像合成タスクや密度推定において最先端の結果を得た。
拡散モデル(LRDM)を用いてそのような表現を学習するためのフレームワークを提案する。
特に、DMと表現エンコーダは、生成的認知過程に特有の豊かな表現を学習するために、共同で訓練される。
論文 参考訳(メタデータ) (2022-10-20T07:26:47Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。