論文の概要: Scene Graph Conditioning in Latent Diffusion
- arxiv url: http://arxiv.org/abs/2310.10338v1
- Date: Mon, 16 Oct 2023 12:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 14:36:52.818019
- Title: Scene Graph Conditioning in Latent Diffusion
- Title(参考訳): 潜伏拡散におけるシーングラフコンディショニング
- Authors: Frank Fundel
- Abstract要約: 拡散モデルは画像生成に優れるが、テキストプロンプトを用いた詳細なセマンティック制御は欠如している。
対照的に、シーングラフは画像の内容をより正確に表現する。
提案手法を用いることで,より高品質なシーングラフから画像を生成することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models excel in image generation but lack detailed semantic control
using text prompts. Additional techniques have been developed to address this
limitation. However, conditioning diffusion models solely on text-based
descriptions is challenging due to ambiguity and lack of structure. In
contrast, scene graphs offer a more precise representation of image content,
making them superior for fine-grained control and accurate synthesis in image
generation models. The amount of image and scene-graph data is sparse, which
makes fine-tuning large diffusion models challenging. We propose multiple
approaches to tackle this problem using ControlNet and Gated Self-Attention. We
were able to show that using out proposed methods it is possible to generate
images from scene graphs with much higher quality, outperforming previous
methods. Our source code is publicly available on
https://github.com/FrankFundel/SGCond
- Abstract(参考訳): 拡散モデルは画像生成に優れるが、テキストプロンプトを用いた詳細な意味制御は欠如している。
この制限に対処する追加の技術が開発されている。
しかし,テキスト記述のみに基づく条件付拡散モデルは,曖昧性と構造不足のため困難である。
対照的に、シーングラフは画像コンテンツのより正確な表現を提供し、画像生成モデルにおけるきめ細かい制御と正確な合成に優れている。
画像とシーングラフのデータ量は少ないため、微調整された大きな拡散モデルが難しい。
ControlNetとGated Self-Attentionを使ってこの問題に対処する複数の手法を提案する。
提案手法を用いることで,より高品質なシーングラフから画像を生成することが可能であり,従来の手法よりも優れていた。
私たちのソースコードはhttps://github.com/FrankFundel/SGCondで公開されています。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。