論文の概要: High-Fidelity Guided Image Synthesis with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2211.17084v1
- Date: Wed, 30 Nov 2022 15:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:18:51.532993
- Title: High-Fidelity Guided Image Synthesis with Latent Diffusion Models
- Title(参考訳): 遅延拡散モデルを用いた高忠実誘導画像合成
- Authors: Jaskirat Singh, Stephen Gould, Liang Zheng
- Abstract要約: 提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
- 参考スコア(独自算出の注目度): 50.39294302741698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable image synthesis with user scribbles has gained huge public
interest with the recent advent of text-conditioned latent diffusion models.
The user scribbles control the color composition while the text prompt provides
control over the overall image semantics. However, we note that prior works in
this direction suffer from an intrinsic domain shift problem, wherein the
generated outputs often lack details and resemble simplistic representations of
the target domain. In this paper, we propose a novel guided image synthesis
framework, which addresses this problem by modeling the output image as the
solution of a constrained optimization problem. We show that while computing an
exact solution to the optimization is infeasible, an approximation of the same
can be achieved while just requiring a single pass of the reverse diffusion
process. Additionally, we show that by simply defining a cross-attention based
correspondence between the input text tokens and the user stroke-painting, the
user is also able to control the semantics of different painted regions without
requiring any conditional training or finetuning. Human user study results show
that the proposed approach outperforms the previous state-of-the-art by over
85.32% on the overall user satisfaction scores. Project page for our paper is
available at https://1jsingh.github.io/gradop.
- Abstract(参考訳): 近年,テキスト条件付潜時拡散モデルが出現し,ユーザスクリブルによる制御可能な画像合成が注目されている。
ユーザはカラーコンポジションをスクリブルし、テキストプロンプトは画像全体のセマンティクスを制御する。
しかし、この方向の先行作業は、生成されたアウトプットがしばしば詳細を欠き、ターゲットドメインの単純表現に類似する、固有のドメインシフト問題に苦しむことに注意する。
本稿では,制約付き最適化問題の解として出力画像のモデル化を行い,この問題に対処する新しい誘導型画像合成フレームワークを提案する。
最適化に対する厳密な解の計算は不可能であるが、逆拡散過程の単一パスを必要とするだけで同じ近似を実現できることを示す。
さらに,入力テキストトークンとユーザストロークペインティングの相互アテンションに基づく対応を単純に定義することで,ユーザーは条件付きトレーニングや微調整を必要とせずに,異なる塗装領域のセマンティクスを制御できることを示す。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアよりも85.32%以上向上していることが示された。
私たちの論文のプロジェクトページはhttps://1jsingh.github.io/gradop.orgで閲覧できます。
関連論文リスト
- Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image
Diffusion Models [46.18013380882767]
この研究は、解釈可能な言語プロンプトを直接得るために拡散モデルを反転させることに焦点を当てている。
拡散過程の異なる時間ステップが、画像の異なる詳細レベルに適合するという知見を活用する。
提案手法は,対象画像に対して意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。
論文 参考訳(メタデータ) (2023-12-19T18:47:30Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - ImageBART: Bidirectional Context with Multinomial Diffusion for
Autoregressive Image Synthesis [15.006676130258372]
自己回帰モデルは、以前に合成された画像パッチを上または左にのみ参加することで、コンテキストを線形1次元順序で組み込む。
自己回帰的定式化と多項拡散過程を組み合わせたコンテキストの粗大な階層構造を提案する。
当社のアプローチは、ローカルな画像編集を行うために、制限のない、ユーザが提供するマスクを考慮に入れることができる。
論文 参考訳(メタデータ) (2021-08-19T17:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。