論文の概要: Scribble-Guided Diffusion for Training-free Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2409.08026v1
- Date: Thu, 12 Sep 2024 13:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 16:29:19.317274
- Title: Scribble-Guided Diffusion for Training-free Text-to-Image Generation
- Title(参考訳): 無訓練テキスト・画像生成のためのスクリブル誘導拡散
- Authors: Seonho Lee, Jiho Choi, Seohyun Lim, Jiwook Kim, Hyunjung Shim,
- Abstract要約: Scribble-Guided Diffusion (ScribbleDiff)は、単純なユーザが提供するスクリブルを視覚的プロンプトとして利用して画像生成を誘導する、トレーニング不要のアプローチである。
モーメントアライメントとスクリブル伝搬を導入し、生成した画像とスクリブル入力のより効果的で柔軟なアライメントを可能にする。
- 参考スコア(独自算出の注目度): 17.930032337081673
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in text-to-image diffusion models have demonstrated remarkable success, yet they often struggle to fully capture the user's intent. Existing approaches using textual inputs combined with bounding boxes or region masks fall short in providing precise spatial guidance, often leading to misaligned or unintended object orientation. To address these limitations, we propose Scribble-Guided Diffusion (ScribbleDiff), a training-free approach that utilizes simple user-provided scribbles as visual prompts to guide image generation. However, incorporating scribbles into diffusion models presents challenges due to their sparse and thin nature, making it difficult to ensure accurate orientation alignment. To overcome these challenges, we introduce moment alignment and scribble propagation, which allow for more effective and flexible alignment between generated images and scribble inputs. Experimental results on the PASCAL-Scribble dataset demonstrate significant improvements in spatial control and consistency, showcasing the effectiveness of scribble-based guidance in diffusion models. Our code is available at https://github.com/kaist-cvml-lab/scribble-diffusion.
- Abstract(参考訳): 近年のテキスト・画像拡散モデルの進歩は目覚ましい成功を収めているが、ユーザの意図を完全に捉えるのに苦労することが多い。
テキスト入力と境界ボックスや領域マスクを組み合わせた既存のアプローチは、正確な空間的ガイダンスを提供するには不十分であり、しばしば不整合または意図しないオブジェクト指向をもたらす。
これらの制約に対処するために、簡単なユーザが提供するスクリブルを視覚的プロンプトとして利用し、画像生成を誘導するトレーニングフリーなアプローチであるScribble-Guided Diffusion (ScribbleDiff)を提案する。
しかし、拡散モデルにスクリブルを組み込むことは、そのスパースで薄い性質のために困難を呈し、正確な配向を確実にすることは困難である。
これらの課題を克服するために、モーメントアライメントとスクリブル伝搬を導入し、生成された画像とスクリブル入力のより効果的で柔軟なアライメントを可能にする。
PASCAL-Scribbleデータセットの実験結果は空間制御と整合性に大きな改善を示し,拡散モデルにおけるスクリブルに基づくガイダンスの有効性を示した。
私たちのコードはhttps://github.com/kaist-cvml-lab/scribble-diffusion.comで公開されています。
関連論文リスト
- Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - Coherent Zero-Shot Visual Instruction Generation [15.0521272616551]
本稿では,視覚的指示を生成する際の課題に対処するための,簡単な学習不要のフレームワークを提案する。
本手法は,視覚的指示が視覚的に魅力的であることを保証するために,テキスト理解と画像生成を体系的に統合する。
実験の結果,コヒーレントで視覚的な指示を可視化できることがわかった。
論文 参考訳(メタデータ) (2024-06-06T17:59:44Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image
Diffusion Models [46.18013380882767]
この研究は、解釈可能な言語プロンプトを直接得るために拡散モデルを反転させることに焦点を当てている。
拡散過程の異なる時間ステップが、画像の異なる詳細レベルに適合するという知見を活用する。
提案手法は,対象画像に対して意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。
論文 参考訳(メタデータ) (2023-12-19T18:47:30Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation [1.0152838128195465]
拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
論文 参考訳(メタデータ) (2023-08-11T09:15:22Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。