論文の概要: U-Sketch: An Efficient Approach for Sketch to Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.18425v1
- Date: Wed, 27 Mar 2024 10:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:27:38.425684
- Title: U-Sketch: An Efficient Approach for Sketch to Image Diffusion Models
- Title(参考訳): U-Sketch: 画像拡散モデルへのスケッチの効率的なアプローチ
- Authors: Ilias Mitsouras, Eleftherios Tsonis, Paraskevi Tzouveli, Athanasios Voulodimos,
- Abstract要約: 拡散モデルはテキスト・画像合成において顕著な性能を示した。
その成功にもかかわらず、ディフュージョンモデルはまだスケッチ・ツー・イメージ合成タスクに遅れを取っている。
U-Net型潜在エッジ予測器を備えたフレームワークであるU-Sketchを紹介する。
- 参考スコア(独自算出の注目度): 3.693613218794592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated remarkable performance in text-to-image synthesis, producing realistic and high resolution images that faithfully adhere to the corresponding text-prompts. Despite their great success, they still fall behind in sketch-to-image synthesis tasks, where in addition to text-prompts, the spatial layout of the generated images has to closely follow the outlines of certain reference sketches. Employing an MLP latent edge predictor to guide the spatial layout of the synthesized image by predicting edge maps at each denoising step has been recently proposed. Despite yielding promising results, the pixel-wise operation of the MLP does not take into account the spatial layout as a whole, and demands numerous denoising iterations to produce satisfactory images, leading to time inefficiency. To this end, we introduce U-Sketch, a framework featuring a U-Net type latent edge predictor, which is capable of efficiently capturing both local and global features, as well as spatial correlations between pixels. Moreover, we propose the addition of a sketch simplification network that offers the user the choice of preprocessing and simplifying input sketches for enhanced outputs. The experimental results, corroborated by user feedback, demonstrate that our proposed U-Net latent edge predictor leads to more realistic results, that are better aligned with the spatial outlines of the reference sketches, while drastically reducing the number of required denoising steps and, consequently, the overall execution time.
- Abstract(参考訳): 拡散モデルはテキスト・画像合成において顕著な性能を示し、対応するテキスト・プロンプトに忠実に準拠する現実的で高解像度の画像を生成する。
彼らの大きな成功にもかかわらず、スケッチ・ツー・イメージ合成のタスクは依然として遅れており、テキスト・プロンプトに加えて、生成された画像の空間的レイアウトは、特定の参照スケッチの概要を忠実に従わなければならない。
近年,MLP遅延エッジ予測器を用いて合成画像の空間的レイアウトをデノナイジングステップ毎に予測する手法が提案されている。
有望な結果を得たにも拘わらず、MLPの画素操作は空間的レイアウト全体を考慮せず、満足な画像を生成するために多くの装飾的な反復を必要とし、時間的不効率をもたらす。
この目的のために、U-Sketchは、U-Net型遅延エッジ予測器を特徴とするフレームワークで、局所的特徴と大域的特徴、および画素間の空間的相関を効率的に捉えることができる。
さらに,ユーザに対して,事前処理の選択と出力向上のための入力スケッチの簡略化を行うスケッチ単純化ネットワークを提案する。
提案したU-Net潜伏エッジ予測器は,提案手法によりより現実的な結果が得られ,参照スケッチの空間的アウトラインと整合し,必要な復調ステップの数を劇的に減らし,結果として全体の実行時間を短縮することを示した。
関連論文リスト
- Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis [62.29033292210752]
一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
論文 参考訳(メタデータ) (2024-03-04T09:03:16Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Semantics-Preserving Sketch Embedding for Face Generation [26.15479367792076]
本稿では,W+空間の高表現力を活用するために,新しいW-W+エンコーダアーキテクチャを提案する。
また、スケッチセマンティック埋め込みのための明示的な中間表現も導入する。
ベクトル化されたスケッチから意味を自動的に抽出する新しいスケッチ意味解釈手法が設計されている。
論文 参考訳(メタデータ) (2022-11-23T15:14:49Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。