論文の概要: P+: Extended Textual Conditioning in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2303.09522v3
- Date: Sat, 15 Jul 2023 15:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 22:49:32.797589
- Title: P+: Extended Textual Conditioning in Text-to-Image Generation
- Title(参考訳): p+:テキストから画像へのコンディショニングの拡張
- Authors: Andrey Voynov, Qinghao Chu, Daniel Cohen-Or, Kfir Aberman
- Abstract要約: テキスト・ツー・イメージ・モデルでは$P+$と呼ばれる拡張テキスト・コンディショニング・スペースを導入します。
拡張空間は画像合成に対してより密接な制御と制御を提供することを示す。
さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。
- 参考スコア(独自算出の注目度): 50.823884280133626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an Extended Textual Conditioning space in text-to-image models,
referred to as $P+$. This space consists of multiple textual conditions,
derived from per-layer prompts, each corresponding to a layer of the denoising
U-net of the diffusion model.
We show that the extended space provides greater disentangling and control
over image synthesis. We further introduce Extended Textual Inversion (XTI),
where the images are inverted into $P+$, and represented by per-layer tokens.
We show that XTI is more expressive and precise, and converges faster than
the original Textual Inversion (TI) space. The extended inversion method does
not involve any noticeable trade-off between reconstruction and editability and
induces more regular inversions.
We conduct a series of extensive experiments to analyze and understand the
properties of the new space, and to showcase the effectiveness of our method
for personalizing text-to-image models. Furthermore, we utilize the unique
properties of this space to achieve previously unattainable results in
object-style mixing using text-to-image models. Project page:
https://prompt-plus.github.io
- Abstract(参考訳): テキストから画像への拡張テキスト条件空間($P+$)を導入する。
この空間は層間プロンプトから導かれる複数のテキスト条件で構成され、それぞれ拡散モデルのデノイングUネットの層に対応する。
拡張空間は画像合成の非結合性と制御性が向上することを示す。
さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。
XTI は表現的かつ正確であり,元の Textual Inversion (TI) 空間よりも高速に収束することを示す。
拡張反転法は、再構成と編集可能性の間の明らかなトレードオフを含まず、より規則的な反転を引き起こす。
テキスト・ツー・イメージ・モデルのパーソナライズのための手法の有効性を実証するため,新しい空間の特性を分析し,理解するための広範囲な実験を行った。
さらに、この空間のユニークな特性を利用して、テキストから画像へのモデルを用いたオブジェクトスタイルの混合において、これまで達成できなかった結果を得る。
プロジェクトページ: https://prompt-plus.github.io
関連論文リスト
- LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。
7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-06-30T15:50:32Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - DeltaSpace: A Semantic-aligned Feature Space for Flexible Text-guided
Image Editing [22.354236929932476]
テキスト誘導画像編集は、トレーニングと推論の柔軟性において大きな課題に直面している。
本稿では,CLIP の視覚的特徴差を生成モデルの潜在空間方向にマッピングする DeltaEdit という新しいフレームワークを提案する。
実験は、異なる生成モデルによるDeltaEditの有効性と汎用性を検証する。
論文 参考訳(メタデータ) (2023-10-12T15:43:12Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。