論文の概要: Counting Guidance for High Fidelity Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2306.17567v1
- Date: Fri, 30 Jun 2023 11:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 12:46:11.647278
- Title: Counting Guidance for High Fidelity Text-to-Image Synthesis
- Title(参考訳): 高忠実テキスト・画像合成のためのカウントガイダンス
- Authors: Wonjun Kang, Kevin Galim, Hyung Il Koo
- Abstract要約: テキストと画像の拡散モデルは、入力プロンプトに対して高い忠実度コンテンツを生成できない。
例えば、「テーブル上の5つのリンゴと10個のレモン」というプロンプトが与えられた場合、拡散生成画像は通常、間違った数のオブジェクトを含む。
本稿では,拡散モデルの改良手法を提案する。
- 参考スコア(独自算出の注目度): 2.6212127510234797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the quality and performance of text-to-image generation
significantly advanced due to the impressive results of diffusion models.
However, text-to-image diffusion models still fail to generate high fidelity
content with respect to the input prompt. One problem where text-to-diffusion
models struggle is generating the exact number of objects specified in the text
prompt. E.g. given a prompt "five apples and ten lemons on a table",
diffusion-generated images usually contain the wrong number of objects. In this
paper, we propose a method to improve diffusion models to focus on producing
the correct object count given the input prompt. We adopt a counting network
that performs reference-less class-agnostic counting for any given image. We
calculate the gradients of the counting network and refine the predicted noise
for each step. To handle multiple types of objects in the prompt, we use novel
attention map guidance to obtain high-fidelity masks for each object. Finally,
we guide the denoising process by the calculated gradients for each object.
Through extensive experiments and evaluation, we demonstrate that our proposed
guidance method greatly improves the fidelity of diffusion models to object
count.
- Abstract(参考訳): 近年,拡散モデルの顕著な結果により,テキスト・画像生成の品質と性能が著しく向上した。
しかし,テキスト・画像拡散モデルでは入力プロンプトに対して高い忠実度を生成できない。
テキストから拡散モデルが苦労する問題のひとつは、テキストプロンプトで指定されたオブジェクトの正確な数を生成することだ。
例えば、「テーブルの上の5つのリンゴと10個のレモン」というプロンプトが与えられたとき、拡散生成画像は通常間違った数のオブジェクトを含む。
本稿では,入力プロンプトから正しい対象数を生成することに焦点を当て,拡散モデルを改善する手法を提案する。
任意の画像に対して参照なしクラス非依存のカウントを行うカウントネットワークを採用する。
計数ネットワークの勾配を計算し,各ステップの予測ノイズを洗練する。
複数種類のオブジェクトをプロンプトで処理するために,新しいアテンションマップガイダンスを用いて各オブジェクトに対して高忠実度マスクを求める。
最後に,各対象に対する計算された勾配によって,分別過程を導出する。
広範な実験と評価を通じて,提案手法が拡散モデルのオブジェクト数への忠実性を大幅に改善することを示す。
関連論文リスト
- Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - SYRAC: Synthesize, Rank, and Count [19.20599654208014]
本稿では, 遅延拡散モデルを用いて合成データを生成することによって, アノテーションの負担を軽減する新しい手法を提案する。
本報告では,非監視的群集カウントの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-10-02T21:52:47Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [80.82832715884597]
生成拡散モデルにより生成された画像からテキストプロンプトを予測する新しいタスクを導入する。
本稿では,複数ラベルの語彙分類を目的とし,協調的即時回帰と複数ラベルの語彙分類からなる新しい学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。