論文の概要: BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained
Diffusion
- arxiv url: http://arxiv.org/abs/2307.10816v1
- Date: Thu, 20 Jul 2023 12:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:09:21.871665
- Title: BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained
Diffusion
- Title(参考訳): BoxDiff: トレーニング不要なボックス制約拡散を用いたテキスト・画像合成
- Authors: Jinheng Xie, Yuexiang Li, Yawen Huang, Haozhe Liu, Wentian Zhang,
Yefeng Zheng and Mike Zheng Shou
- Abstract要約: 本稿では,ボックスやスクリブルなどのユーザ提供条件の最も単純な形式に焦点を当てる。
本研究では,空間条件に順応した合成画像のオブジェクトとコンテキストを制御する訓練自由な手法を提案する。
具体的には、3つの空間的制約、すなわち、インナーボックス、アウターボックス、コーナー制約を、拡散モデルの妄想的なステップにシームレスに統合する。
- 参考スコア(独自算出の注目度): 27.70483336381423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image diffusion models have demonstrated an astonishing
capacity to generate high-quality images. However, researchers mainly studied
the way of synthesizing images with only text prompts. While some works have
explored using other modalities as conditions, considerable paired data, e.g.,
box/mask-image pairs, and fine-tuning time are required for nurturing models.
As such paired data is time-consuming and labor-intensive to acquire and
restricted to a closed set, this potentially becomes the bottleneck for
applications in an open world. This paper focuses on the simplest form of
user-provided conditions, e.g., box or scribble. To mitigate the aforementioned
problem, we propose a training-free method to control objects and contexts in
the synthesized images adhering to the given spatial conditions. Specifically,
three spatial constraints, i.e., Inner-Box, Outer-Box, and Corner Constraints,
are designed and seamlessly integrated into the denoising step of diffusion
models, requiring no additional training and massive annotated layout data.
Extensive results show that the proposed constraints can control what and where
to present in the images while retaining the ability of the Stable Diffusion
model to synthesize with high fidelity and diverse concept coverage. The code
is publicly available at https://github.com/Sierkinhane/BoxDiff.
- Abstract(参考訳): 最近のテキストから画像への拡散モデルは、高品質な画像を生成する驚くべき能力を示している。
しかし、研究者は主にテキストプロンプトだけで画像の合成方法を研究した。
他のモダリティを条件として利用する研究もあるが、箱/マスク画像ペアや微調整時間など、かなりのペアデータが必要となる。
このようなペアデータには時間と労力がかかり、クローズドセットに制限されるため、オープンワールドにおけるアプリケーションのボトルネックになる可能性がある。
本稿では,ボックスやスクリブルなどのユーザ提供条件の最も単純な形式に焦点を当てる。
上記の問題を緩和するために,与えられた空間条件に固執する合成画像内のオブジェクトやコンテキストを制御するためのトレーニングフリーな手法を提案する。
具体的には、3つの空間的制約、すなわち、インナーボックス、アウターボックス、コーナー制約は、追加のトレーニングや大量のアノテートレイアウトデータを必要としない拡散モデルのデノイングステップにシームレスに統合される。
提案した制約は, 安定拡散モデルが高忠実で多様な概念カバレッジで合成できる能力を維持しつつ, 画像中の何とどこに表示すべきかを制御できることを示す。
コードはhttps://github.com/Sierkinhane/BoxDiffで公開されている。
関連論文リスト
- $\infty$-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions [58.42011190989414]
無限次元における新しい条件拡散モデル、制御可能な大画像合成のための$infty$-Brushを導入する。
我々の知る限り、$infty$-Brushは関数空間における最初の条件拡散モデルであり、最大4096times4096$ピクセルの任意の解像度で画像を制御できる。
論文 参考訳(メタデータ) (2024-07-20T00:04:49Z) - Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。