論文の概要: Image Inpainting via Tractable Steering of Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.03349v1
- Date: Tue, 28 Nov 2023 21:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:20:23.329870
- Title: Image Inpainting via Tractable Steering of Diffusion Models
- Title(参考訳): 拡散モデルのトラクタブルステアリングによる画像処理
- Authors: Anji Liu and Mathias Niepert and Guy Van den Broeck
- Abstract要約: 本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
- 参考スコア(独自算出の注目度): 54.13818673257381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are the current state of the art for generating
photorealistic images. Controlling the sampling process for constrained image
generation tasks such as inpainting, however, remains challenging since exact
conditioning on such constraints is intractable. While existing methods use
various techniques to approximate the constrained posterior, this paper
proposes to exploit the ability of Tractable Probabilistic Models (TPMs) to
exactly and efficiently compute the constrained posterior, and to leverage this
signal to steer the denoising process of diffusion models. Specifically, this
paper adopts a class of expressive TPMs termed Probabilistic Circuits (PCs).
Building upon prior advances, we further scale up PCs and make them capable of
guiding the image generation process of diffusion models. Empirical results
suggest that our approach can consistently improve the overall quality and
semantic coherence of inpainted images across three natural image datasets
(i.e., CelebA-HQ, ImageNet, and LSUN) with only ~10% additional computational
overhead brought by the TPM. Further, with the help of an image encoder and
decoder, our method can readily accept semantic constraints on specific regions
of the image, which opens up the potential for more controlled image generation
tasks. In addition to proposing a new framework for constrained image
generation, this paper highlights the benefit of more tractable models and
motivates the development of expressive TPMs.
- Abstract(参考訳): 拡散モデルは、フォトリアリスティックな画像を生成する技術の現状である。
しかし, この制約に対する厳密な条件付けは難解であるため, 塗装などの制約付き画像生成タスクのサンプリングプロセスの制御は困難である。
既存の手法では制約後部を近似するために様々な手法が用いられているが,本研究では,制約後部を正確にかつ効率的に計算するためのTPM(Tractable Probabilistic Models)の活用と,拡散モデルの認知過程の制御にこの信号を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
先行研究では,さらにpcをスケールアップし,拡散モデルの画像生成プロセスを導くことができるようにした。
実験の結果,TPMがもたらす計算オーバーヘッドは10%程度に過ぎず,3つの自然な画像データセット(CelebA-HQ, ImageNet, LSUN)にまたがるインペイント画像の全体的な品質とセマンティックコヒーレンスを一貫して改善できることが示唆された。
さらに、画像エンコーダとデコーダの助けを借りて、画像の特定の領域に対する意味的制約を容易に受け取り、より制御された画像生成タスクの可能性を開くことができる。
本稿では、制約付き画像生成のための新しいフレームワークの提案に加えて、よりトラクタブルなモデルの利点を強調し、表現型TPMの開発を動機づける。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。
潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。
これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文 参考訳(メタデータ) (2024-03-14T12:58:28Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z) - Generating Images with Sparse Representations [21.27273495926409]
画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-05T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。