論文の概要: Predicated Diffusion: Predicate Logic-Based Attention Guidance for
Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.16117v1
- Date: Tue, 3 Oct 2023 15:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 15:24:48.937504
- Title: Predicated Diffusion: Predicate Logic-Based Attention Guidance for
Text-to-Image Diffusion Models
- Title(参考訳): 述語拡散:テキスト・画像拡散モデルのための述語論理に基づく注意誘導
- Authors: Kota Sueyoshi, Takashi Matsubara
- Abstract要約: 拡散モデルは高品質で多彩で創造的な画像を生成することに顕著な成果を上げている。
しかし、テキストベースの画像生成に関しては、しばしばテキストに示される意図された意味を捉えることに失敗する。
ユーザの意図を表現する統合フレームワークであるPredicated Diffusionを提案する。
- 参考スコア(独自算出の注目度): 11.240642213359267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable results in generating high-quality,
diverse, and creative images. However, when it comes to text-based image
generation, they often fail to capture the intended meaning presented in the
text. For instance, a specified object may not be generated, an unnecessary
object may be generated, and an adjective may alter objects it was not intended
to modify. Moreover, we found that relationships indicating possession between
objects are often overlooked. While users' intentions in text are diverse,
existing methods tend to specialize in only some aspects of these. In this
paper, we propose Predicated Diffusion, a unified framework to express users'
intentions. We consider that the root of the above issues lies in the text
encoder, which often focuses only on individual words and neglects the logical
relationships between them. The proposed method does not solely rely on the
text encoder, but instead, represents the intended meaning in the text as
propositions using predicate logic and treats the pixels in the attention maps
as the fuzzy predicates. This enables us to obtain a differentiable loss
function that makes the image fulfill the proposition by minimizing it. When
compared to several existing methods, we demonstrated that Predicated Diffusion
can generate images that are more faithful to various text prompts, as verified
by human evaluators and pretrained image-text models.
- Abstract(参考訳): 拡散モデルは、高品質で多様で創造的な画像を生成する素晴らしい結果をもたらしている。
しかし、テキストベースの画像生成に関しては、しばしばテキストに示される意図された意味を捉えることに失敗する。
例えば、指定されたオブジェクトは生成されず、不要なオブジェクトは生成され、形容詞は変更を意図していないオブジェクトを変更できる。
さらに、オブジェクト間の保持を示す関係がしばしば見過ごされることがわかった。
テキストにおけるユーザの意図は様々であるが、既存の手法はこれらの一部だけを専門化する傾向がある。
本稿では,ユーザの意図を表現する統一フレームワークであるpredicated diffusionを提案する。
上述の問題の根源はテキストエンコーダであり、しばしば個々の単語のみに焦点を当て、それらの間の論理的関係を無視している。
提案手法は,テキストエンコーダにのみ依存するのではなく,テキスト中の意図した意味を述語論理を用いた命題として表現し,ファジィ述語として注目マップ内の画素を扱う。
これにより、画像を最小化することで、画像が命題を満たせる微分可能損失関数を得ることができる。
複数の既存の方法と比較すると、予測拡散は様々なテキストプロンプトに忠実な画像を生成することができることが示され、人間のエキュレータと事前学習された画像テキストモデルによって検証された。
関連論文リスト
- Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Directed Diffusion: Direct Control of Object Placement through Attention
Guidance [15.275386705641266]
テキスト誘導拡散モデルは、所望の画像内容を記述する短いテキストプロンプトのみを与えられた、事実上無限の多様な画像を生成することができる。
これらのモデルはしばしば、特定の位置関係における文字のようないくつかの重要なオブジェクトを含むシーンを構成するのに苦労する。
この作業では、必要な方向性を提供するために、特に簡単なアプローチを取ります。
論文 参考訳(メタデータ) (2023-02-25T20:48:15Z) - Imagic: Text-Based Real Image Editing with Diffusion Models [19.05825157237432]
我々は、複雑なテキストガイド付きセマンティック編集を1つの実画像に適用できることを実証する。
提案手法は1つの入力画像と1つのターゲットテキストのみを必要とする。
実際のイメージで動作し、追加の入力を必要としない。
論文 参考訳(メタデータ) (2022-10-17T17:27:32Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。