論文の概要: High-Resolution Image Synthesis with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2112.10752v1
- Date: Mon, 20 Dec 2021 18:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 17:21:22.927281
- Title: High-Resolution Image Synthesis with Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルによる高分解能画像合成
- Authors: Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick
Esser and Bj\"orn Ommer
- Abstract要約: オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
- 参考スコア(独自算出の注目度): 14.786952412297808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By decomposing the image formation process into a sequential application of
denoising autoencoders, diffusion models (DMs) achieve state-of-the-art
synthesis results on image data and beyond. Additionally, their formulation
allows for a guiding mechanism to control the image generation process without
retraining. However, since these models typically operate directly in pixel
space, optimization of powerful DMs often consumes hundreds of GPU days and
inference is expensive due to sequential evaluations. To enable DM training on
limited computational resources while retaining their quality and flexibility,
we apply them in the latent space of powerful pretrained autoencoders. In
contrast to previous work, training diffusion models on such a representation
allows for the first time to reach a near-optimal point between complexity
reduction and detail preservation, greatly boosting visual fidelity. By
introducing cross-attention layers into the model architecture, we turn
diffusion models into powerful and flexible generators for general conditioning
inputs such as text or bounding boxes and high-resolution synthesis becomes
possible in a convolutional manner. Our latent diffusion models (LDMs) achieve
a new state of the art for image inpainting and highly competitive performance
on various tasks, including unconditional image generation, semantic scene
synthesis, and super-resolution, while significantly reducing computational
requirements compared to pixel-based DMs. Code is available at
https://github.com/CompVis/latent-diffusion .
- Abstract(参考訳): 画像形成プロセスをデノージングオートエンコーダの逐次応用に分解することにより、拡散モデル(dms)は画像データなどにおいて最先端の合成結果を達成する。
さらに、それらの定式化により、リトレーニングなしで画像生成プロセスを制御できる誘導機構が実現される。
しかし、これらのモデルは通常ピクセル空間で直接動作するため、強力なDMの最適化はしばしば数百日ものGPU日を消費し、逐次評価のために推論は高価である。
制限された計算資源に対して,その品質と柔軟性を保ちながら,DMトレーニングを可能にするために,パワートレーニング済みオートエンコーダの潜時空間に適用する。
従来の研究とは対照的に、そのような表現のトレーニング拡散モデルにより、複雑性の低減と詳細保存のほぼ最適点に到達することができ、視覚的忠実度を大幅に向上させることができる。
モデルアーキテクチャにクロスアテンション層を導入することで、拡散モデルをテキストやバウンディングボックスなどの一般的なコンディショニング入力のための強力で柔軟なジェネレータに変換し、畳み込み方式で高分解能合成が可能となる。
我々の潜時拡散モデル(LDMs)は,非条件画像生成,セマンティックシーン合成,超解像などの様々なタスクにおいて,画像インパインティングと高い競争性能を実現するとともに,画素ベースのDMと比較して計算要求を大幅に低減する。
コードはhttps://github.com/CompVis/latent-diffusion で入手できる。
関連論文リスト
- Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Nested Diffusion Models Using Hierarchical Latent Priors [23.605302440082994]
ネスト拡散モデル(ネスト拡散モデル)は、効率的で強力な階層的生成フレームワークである。
提案手法では,様々な意味レベルで潜伏変数を段階的に生成するために,一連の拡散モデルを用いる。
これらの潜伏変数を構築するために,事前学習した視覚エンコーダを用いて,強い意味的視覚表現を学習する。
論文 参考訳(メタデータ) (2024-12-08T16:13:39Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Representation Learning with Diffusion Models [0.0]
拡散モデル (DM) は画像合成タスクや密度推定において最先端の結果を得た。
拡散モデル(LRDM)を用いてそのような表現を学習するためのフレームワークを提案する。
特に、DMと表現エンコーダは、生成的認知過程に特有の豊かな表現を学習するために、共同で訓練される。
論文 参考訳(メタデータ) (2022-10-20T07:26:47Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。