論文の概要: ProSpect: Expanded Conditioning for the Personalization of
Attribute-aware Image Generation
- arxiv url: http://arxiv.org/abs/2305.16225v1
- Date: Thu, 25 May 2023 16:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:52:37.879502
- Title: ProSpect: Expanded Conditioning for the Personalization of
Attribute-aware Image Generation
- Title(参考訳): ProSpect:属性認識画像生成のパーソナライズのための拡張条件
- Authors: Yuxin Zhang, Weiming Dong, Fan Tang, Nisha Huang, Haibin Huang,
Chongyang Ma, Tong-Yee Lee, Oliver Deussen, Changsheng Xu
- Abstract要約: 本稿では,拡張テキスト条件空間であるPrompt Spectrum Space P*と,ProSpectと呼ばれる新しい画像表現手法を提案する。
ProSpectは、ステージごとのプロンプトからエンコードされた逆テキストトークンの埋め込みの集合としてイメージを表す。
ProSpectは、画像/テキスト誘導材料/スタイル転送/編集など、さまざまなパーソナライズされた画像生成アプリケーションに適用する。
- 参考スコア(独自算出の注目度): 87.06445251566613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalizing generative models offers a way to guide image generation with
user-provided references. Current personalization methods can invert an object
or concept into the textual conditioning space and compose new natural
sentences for text-to-image diffusion models. However, representing and editing
specific visual attributes like material, style, layout, etc. remains a
challenge, leading to a lack of disentanglement and editability. To address
this, we propose a novel approach that leverages the step-by-step generation
process of diffusion models, which generate images from low- to high-frequency
information, providing a new perspective on representing, generating, and
editing images. We develop Prompt Spectrum Space P*, an expanded textual
conditioning space, and a new image representation method called ProSpect.
ProSpect represents an image as a collection of inverted textual token
embeddings encoded from per-stage prompts, where each prompt corresponds to a
specific generation stage (i.e., a group of consecutive steps) of the diffusion
model. Experimental results demonstrate that P* and ProSpect offer stronger
disentanglement and controllability compared to existing methods. We apply
ProSpect in various personalized attribute-aware image generation applications,
such as image/text-guided material/style/layout transfer/editing, achieving
previously unattainable results with a single image input without fine-tuning
the diffusion models.
- Abstract(参考訳): 生成モデルのパーソナライズは、ユーザが提供する参照で画像生成をガイドする方法を提供する。
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
しかし、素材、スタイル、レイアウトなどの特定の視覚的属性の表現と編集は依然として課題であり、絡み合いや編集性が欠如している。
そこで本研究では,低周波情報から高周波画像を生成し,画像の表現,生成,編集を行う拡散モデルのステップバイステップ生成プロセスを活用する新しいアプローチを提案する。
本稿では,拡張テキスト条件空間であるPrompt Spectrum Space P*と,ProSpectと呼ばれる新しい画像表現手法を提案する。
ProSpectは、各プロンプトが拡散モデルの特定の生成段階(つまり連続的なステップのグループ)に対応する段階ごとのプロンプトから符号化された逆テキストトークン埋め込みの集合として画像を表す。
実験の結果,P* と ProSpect は既存手法に比べて強い絡み合いと制御性を示した。
画像/テキスト誘導材料/スタイル/レイアウト転送/編集など,パーソナライズされた属性認識型画像生成アプリケーションでは,拡散モデルを微調整することなく,単一の画像入力で従来達成できなかった結果が得られる。
関連論文リスト
- Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。