論文の概要: BootPIG: Bootstrapping Zero-shot Personalized Image Generation
Capabilities in Pretrained Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.13974v1
- Date: Thu, 25 Jan 2024 06:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:33:53.118433
- Title: BootPIG: Bootstrapping Zero-shot Personalized Image Generation
Capabilities in Pretrained Diffusion Models
- Title(参考訳): BootPIG:事前訓練拡散モデルにおけるゼロショットパーソナライズド画像生成機能
- Authors: Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik
- Abstract要約: 本稿では,オブジェクトの参照画像を提供する新しいアーキテクチャ(BootPIG)を提案する。
提案したBootPIGアーキテクチャは、事前訓練されたテキスト-画像拡散モデルに最小限の変更を加える。
数日間の事前トレーニングを必要とする既存の方法とは対照的に、BootPIGアーキテクチャはおよそ1時間でトレーニングできる。
- 参考スコア(独自算出の注目度): 33.6421568407629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image generation models have demonstrated incredible success
in generating images that faithfully follow input prompts. However, the
requirement of using words to describe a desired concept provides limited
control over the appearance of the generated concepts. In this work, we address
this shortcoming by proposing an approach to enable personalization
capabilities in existing text-to-image diffusion models. We propose a novel
architecture (BootPIG) that allows a user to provide reference images of an
object in order to guide the appearance of a concept in the generated images.
The proposed BootPIG architecture makes minimal modifications to a pretrained
text-to-image diffusion model and utilizes a separate UNet model to steer the
generations toward the desired appearance. We introduce a training procedure
that allows us to bootstrap personalization capabilities in the BootPIG
architecture using data generated from pretrained text-to-image models, LLM
chat agents, and image segmentation models. In contrast to existing methods
that require several days of pretraining, the BootPIG architecture can be
trained in approximately 1 hour. Experiments on the DreamBooth dataset
demonstrate that BootPIG outperforms existing zero-shot methods while being
comparable with test-time finetuning approaches. Through a user study, we
validate the preference for BootPIG generations over existing methods both in
maintaining fidelity to the reference object's appearance and aligning with
textual prompts.
- Abstract(参考訳): 最近のテキストから画像への生成モデルは、入力プロンプトを忠実にフォローする画像を生成することに驚くほど成功した。
しかし、望ましい概念を記述するために単語を使う必要は、生成された概念の出現を限定的に制御できる。
本研究では,既存のテキスト・画像拡散モデルにおけるパーソナライズ機能を実現するアプローチを提案する。
生成された画像における概念の出現を導くために,ユーザが物体の参照画像を提供することを可能にする新しいアーキテクチャ(bootpig)を提案する。
提案したBootPIGアーキテクチャは、事前訓練されたテキスト-画像拡散モデルに最小限の変更を施し、異なるUNetモデルを使用して、世代を望ましい外観に向けて操る。
我々は,事前学習されたテキスト・ツー・イメージモデル,llmチャットエージェント,画像セグメンテーションモデルから生成されたデータを用いて,bootpigアーキテクチャでパーソナライズ機能をブートストラップできるトレーニング手順を導入する。
数日間の事前トレーニングを必要とする既存の方法とは対照的に、BootPIGアーキテクチャはおよそ1時間でトレーニングできる。
DreamBoothデータセットの実験では、BootPIGが既存のゼロショットメソッドよりも優れており、テスト時の微調整アプローチに匹敵する。
ユーザ調査により,参照対象の外観に対する忠実性を維持し,テキスト的プロンプトと整合させることで,既存の手法よりもブートピグ生成の好みを検証した。
関連論文リスト
- JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - BOSC: A Backdoor-based Framework for Open Set Synthetic Image Attribution [22.81354665006496]
合成画像属性は、生成モデルによって生成された画像の起源をトレースする問題に対処する。
本稿では,バックドアアタックの概念に依存する,BOSCと呼ばれる合成画像のオープンセット属性の枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-19T09:17:43Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Customize StyleGAN with One Hand Sketch [0.0]
本稿では,単一のユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。
我々は、エネルギーベース学習により、事前学習したStyleGANモデルの潜在空間における条件分布を学習する。
我々のモデルは、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。
論文 参考訳(メタデータ) (2023-10-29T09:32:33Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。