論文の概要: Boosting Latent Diffusion with Flow Matching
- arxiv url: http://arxiv.org/abs/2312.07360v3
- Date: Wed, 04 Dec 2024 17:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:05:08.464995
- Title: Boosting Latent Diffusion with Flow Matching
- Title(参考訳): フローマッチングによる潜時拡散の促進
- Authors: Johannes Schusterbauer, Ming Gui, Pingchuan Ma, Nick Stracke, Stefan A. Baumann, Vincent Tao Hu, Björn Ommer,
- Abstract要約: フローマッチングは、高速なトレーニングと推論の相補的な特徴から魅力的なアプローチであるが、多種多様な合成は少ない。
凍結拡散モデルと畳み込みデコーダのフローマッチングを導入することにより,高分解能画像合成が可能となることを示す。
最先端の高解像度画像合成は、最小の計算コストで10242ドルのピクセルで達成される。
- 参考スコア(独自算出の注目度): 22.68317748373856
- License:
- Abstract: Visual synthesis has recently seen significant leaps in performance, largely due to breakthroughs in generative models. Diffusion models have been a key enabler, as they excel in image diversity. However, this comes at the cost of slow training and synthesis, which is only partially alleviated by latent diffusion. To this end, flow matching is an appealing approach due to its complementary characteristics of faster training and inference but less diverse synthesis. We demonstrate that introducing flow matching between a frozen diffusion model and a convolutional decoder enables high-resolution image synthesis at reduced computational cost and model size. A small diffusion model can then effectively provide the necessary visual diversity, while flow matching efficiently enhances resolution and detail by mapping the small to a high-dimensional latent space. These latents are then projected to high-resolution images by the subsequent convolutional decoder of the latent diffusion approach. Combining the diversity of diffusion models, the efficiency of flow matching, and the effectiveness of convolutional decoders, state-of-the-art high-resolution image synthesis is achieved at $1024^2$ pixels with minimal computational cost. Further scaling up our method we can reach resolutions up to $2048^2$ pixels. Importantly, our approach is orthogonal to recent approximation and speed-up strategies for the underlying model, making it easily integrable into the various diffusion model frameworks.
- Abstract(参考訳): 視覚合成は、主に生成モデルのブレークスルーによって、最近、パフォーマンスが大幅に飛躍した。
拡散モデルは、画像の多様性に優れており、重要な実現要因となっている。
しかし、これは遅い訓練と合成のコストが伴うため、潜伏拡散によって部分的に緩和されるだけである。
この目的のために、フローマッチングは、高速なトレーニングと推論の相補的な特性を持つが、より多様な合成の少ないため、魅力的なアプローチである。
凍結拡散モデルと畳み込みデコーダのフローマッチングを導入することで,計算コストとモデルサイズを削減できることを示す。
小さい拡散モデルは、必要な視覚的多様性を効果的に提供し、フローマッチングは、小さいものを高次元の潜在空間にマッピングすることで、解像度と細部を効率的に向上させる。
これらの潜伏子は、後続の潜伏拡散アプローチの畳み込みデコーダによって高分解能画像に投影される。
拡散モデルの多様性、フローマッチングの効率、畳み込みデコーダの有効性を組み合わせることで、最先端の高解像度画像合成を最小の計算コストで1024^2$ピクセルで実現する。
さらに、メソッドをスケールアップすることで、最大2048^2$ピクセルの解像度に到達できます。
重要なことは、我々のアプローチは、基礎となるモデルに対する最近の近似とスピードアップ戦略と直交しており、様々な拡散モデルフレームワークに容易に統合できます。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Diffusion Prism: Enhancing Diversity and Morphology Consistency in Mask-to-Image Diffusion [4.0301593672451]
Diffusion Prismは、バイナリマスクを現実的で多様なサンプルに変換する、トレーニング不要のフレームワークである。
少量の人工ノイズが画像デノゲーションプロセスに大きく役立つことを探る。
論文 参考訳(メタデータ) (2025-01-01T20:04:25Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [36.65594293655289]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T12:16:11Z) - Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Dimensionality-Varying Diffusion Process [52.52681373641533]
拡散モデルは、信号破壊プロセスを逆転して新しいデータを生成することを学習する。
信号分解による前方拡散過程の理論的一般化を行う。
FFHQで訓練された拡散モデルのFIDを,52.40から10.46までの1024Times1024$解像度で改善する。
論文 参考訳(メタデータ) (2022-11-29T09:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。