論文の概要: Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models
- arxiv url: http://arxiv.org/abs/2402.13490v1
- Date: Wed, 21 Feb 2024 03:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:23:02.718786
- Title: Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models
- Title(参考訳): テキスト・画像拡散モデルにおける逆プロンプトによる絡み合いの改善
- Authors: Chen Wu and Fernando De la Torre
- Abstract要約: テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
- 参考スコア(独自算出の注目度): 68.47333676663312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have achieved remarkable performance in image
synthesis, while the text interface does not always provide fine-grained
control over certain image factors. For instance, changing a single token in
the text can have unintended effects on the image. This paper shows a simple
modification of classifier-free guidance can help disentangle image factors in
text-to-image models. The key idea of our method, Contrastive Guidance, is to
characterize an intended factor with two prompts that differ in minimal tokens:
the positive prompt describes the image to be synthesized, and the baseline
prompt serves as a "baseline" that disentangles other factors. Contrastive
Guidance is a general method we illustrate whose benefits in three scenarios:
(1) to guide domain-specific diffusion models trained on an object class, (2)
to gain continuous, rig-like controls for text-to-image generation, and (3) to
improve the performance of zero-shot image editors.
- Abstract(参考訳): テキストから画像への拡散モデルは画像合成において顕著な性能を発揮しているが、テキストインターフェースは必ずしも特定の画像要素に対するきめ細かい制御を提供するわけではない。
例えば、テキスト中の1つのトークンを変更すると、意図しない効果を画像に与えることができる。
本稿では,テキスト対画像モデルの画像要素を分離するのに役立つ分類器フリーガイダンスの簡易な修正について述べる。
本手法の重要な考え方であるコントラスト・ガイダンスは,最小のトークンで異なる2つのプロンプトで意図された因子を特徴付けることである: 正のプロンプトは合成されるイメージを記述し,ベースラインプロンプトは他の要因を異にする「ベースライン」として機能する。
コントラストガイダンス(con contrastive guidance)とは、(1)オブジェクトクラスでトレーニングされたドメイン固有の拡散モデルをガイドする、(2)テキスト対画像生成のための連続的なリグライクな制御を得る、(3)ゼロショット画像エディタの性能を改善する、という3つのシナリオにおける利点を説明する一般的な手法である。
関連論文リスト
- TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder [13.695128139074285]
本稿では、テキストプロンプトによる制御可能な画像の作成を可能にする、オーバーフィッティングの軽減によるワンショットパーソナライゼーションの課題に対処する。
パーソナライズ性能を高めるための3つの重要な手法を紹介する。(1)機能障害の促進と過剰適合の緩和のための拡張トークン、(2)言語ドリフトの低減と多様なプロンプト間の一般化性向上のための知識保存損失、(3)効率的なトレーニングのためのSNR重み付きサンプリング。
論文 参考訳(メタデータ) (2024-09-12T17:47:51Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。