論文の概要: DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation
- arxiv url: http://arxiv.org/abs/2208.12242v1
- Date: Thu, 25 Aug 2022 17:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:17:24.822130
- Title: DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation
- Title(参考訳): DreamBooth: 被験者駆動生成のための微調整テキスト-画像拡散モデル
- Authors: Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael
Rubinstein and Kfir Aberman
- Abstract要約: テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。
トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。
次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
- 参考スコア(独自算出の注目度): 26.748667878221568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large text-to-image models achieved a remarkable leap in the evolution of AI,
enabling high-quality and diverse synthesis of images from a given text prompt.
However, these models lack the ability to mimic the appearance of subjects in a
given reference set and synthesize novel renditions of them in different
contexts. In this work, we present a new approach for "personalization" of
text-to-image diffusion models (specializing them to users' needs). Given as
input just a few images of a subject, we fine-tune a pretrained text-to-image
model (Imagen, although our method is not limited to a specific model) such
that it learns to bind a unique identifier with that specific subject. Once the
subject is embedded in the output domain of the model, the unique identifier
can then be used to synthesize fully-novel photorealistic images of the subject
contextualized in different scenes. By leveraging the semantic prior embedded
in the model with a new autogenous class-specific prior preservation loss, our
technique enables synthesizing the subject in diverse scenes, poses, views, and
lighting conditions that do not appear in the reference images. We apply our
technique to several previously-unassailable tasks, including subject
recontextualization, text-guided view synthesis, appearance modification, and
artistic rendering (all while preserving the subject's key features). Project
page: https://dreambooth.github.io/
- Abstract(参考訳): 大規模なテキスト画像モデルは、AIの進化において顕著な飛躍を遂げ、与えられたテキストプロンプトから画像の高品質で多様な合成を可能にした。
しかし、これらのモデルには、与えられた参照セットの被写体を模倣し、異なる文脈でそれらの新しい再帰を合成する能力がない。
本稿では,テキストから画像への拡散モデルの「パーソナライズ」のための新しいアプローチを提案する。
入力対象の少数の画像が与えられた場合、トレーニング済みのテキスト・ツー・イメージ・モデル(画像nは特定のモデルに限らないが、我々の方法は特定の対象に固有の識別子を結び付けることを学習する)を微調整する。
被写体がモデルの出力領域に埋め込まれると、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全ヌーベルな光現実像を合成することができる。
本手法は,モデル内に埋め込まれたセマンティクスを,新たな自己固有のクラス固有の事前保存損失に活用することにより,参照画像にない多様なシーン,ポーズ,ビュー,照明条件で対象を合成することができる。
本手法は, 被験者の主観的特徴を保ちながら, 主題再構成, テキスト誘導ビュー合成, 外観修正, 芸術的レンダリングなど, 今までにない課題に適用する。
プロジェクトページ: https://dreambooth.github.io/
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Imagine yourself: Tuning-Free Personalized Image Generation [39.63411174712078]
私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。
チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。
我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-20T09:21:49Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - Subject-driven Text-to-Image Generation via Apprenticeship Learning [83.88256453081607]
本研究では,テキスト・トゥ・イメージ・ジェネレータのSuTIについて述べる。
SuTIは見習いの学習を利用しており、そこでは、多数の主題固有のエキスパートモデルによって生成されたデータから、単一の見習いモデルが学習される。
SuTIは、InstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen、DreamBoothといった既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-04-01T00:47:35Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。