論文の概要: ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.16225v3
- Date: Thu, 7 Dec 2023 07:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 18:47:08.949130
- Title: ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models
- Title(参考訳): 拡散モデルの属性認識パーソナライズのためのプロンプトスペクトル
- Authors: Yuxin Zhang, Weiming Dong, Fan Tang, Nisha Huang, Haibin Huang,
Chongyang Ma, Tong-Yee Lee, Oliver Deussen, Changsheng Xu
- Abstract要約: 現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
- 参考スコア(独自算出の注目度): 77.03361270726944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalizing generative models offers a way to guide image generation with
user-provided references. Current personalization methods can invert an object
or concept into the textual conditioning space and compose new natural
sentences for text-to-image diffusion models. However, representing and editing
specific visual attributes such as material, style, and layout remains a
challenge, leading to a lack of disentanglement and editability. To address
this problem, we propose a novel approach that leverages the step-by-step
generation process of diffusion models, which generate images from low to high
frequency information, providing a new perspective on representing, generating,
and editing images. We develop the Prompt Spectrum Space P*, an expanded
textual conditioning space, and a new image representation method called
\sysname. ProSpect represents an image as a collection of inverted textual
token embeddings encoded from per-stage prompts, where each prompt corresponds
to a specific generation stage (i.e., a group of consecutive steps) of the
diffusion model. Experimental results demonstrate that P* and ProSpect offer
better disentanglement and controllability compared to existing methods. We
apply ProSpect in various personalized attribute-aware image generation
applications, such as image-guided or text-driven manipulations of materials,
style, and layout, achieving previously unattainable results from a single
image input without fine-tuning the diffusion models. Our source code is
available athttps://github.com/zyxElsa/ProSpect.
- Abstract(参考訳): 生成モデルのパーソナライズは、ユーザが提供する参照で画像生成をガイドする方法を提供する。
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
しかし、素材、スタイル、レイアウトなどの特定の視覚的属性の表現と編集は依然として課題であり、絡み合いや編集性が欠如している。
そこで本研究では,低周波情報から高周波画像を生成する拡散モデルのステップ・バイ・ステップ生成プロセスを利用して,画像の表現,生成,編集に関する新たな視点を提供する。
本稿では,拡張テキスト条件空間であるPrompt Spectrum Space P*と,新しい画像表現法であるShasysnameを開発した。
ProSpectは、各プロンプトが拡散モデルの特定の生成段階(つまり連続的なステップのグループ)に対応する段階ごとのプロンプトから符号化された逆テキストトークン埋め込みの集合として画像を表す。
実験の結果、p* と prospect は既存の方法と比較してより良い乱れと制御性を示している。
画像誘導やテキスト駆動による素材, スタイル, レイアウトの操作など, パーソナライズされた属性認識型画像生成アプリケーションの展望を適用し, 拡散モデルを微調整することなく, 単一の画像入力からこれまで達成できなかった結果を得る。
ソースコードはhttps://github.com/zyxElsa/ProSpect.comで公開されています。
関連論文リスト
- Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。