論文の概要: Subject-driven Text-to-Image Generation via Apprenticeship Learning
- arxiv url: http://arxiv.org/abs/2304.00186v2
- Date: Fri, 14 Apr 2023 17:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 15:56:48.145434
- Title: Subject-driven Text-to-Image Generation via Apprenticeship Learning
- Title(参考訳): 徒弟学習による主題駆動テキストから画像への生成
- Authors: Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei
Chang, William W. Cohen
- Abstract要約: SuTIは被写体駆動のテキスト・トゥ・イメージ・ジェネレータで、被写体固有の微調整をペンフィン・コンテクスト学習に置き換える。
インターネットから何百万もの画像クラスタをマイニングしています。
SuTIは、最適化ベースのSoTA法よりも20倍高速に、高品質でカスタマイズされた被写体特化画像を生成することができる。
- 参考スコア(独自算出の注目度): 71.19329854726595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image generation models like DreamBooth have made remarkable
progress in generating highly customized images of a target subject, by
fine-tuning an ``expert model'' for a given subject from a few examples.
However, this process is expensive, since a new expert model must be learned
for each subject. In this paper, we present SuTI, a Subject-driven
Text-to-Image generator that replaces subject-specific fine tuning with
\emph{in-context} learning. Given a few demonstrations of a new subject, SuTI
can instantly generate novel renditions of the subject in different scenes,
without any subject-specific optimization. SuTI is powered by {\em
apprenticeship learning}, where a single apprentice model is learned from data
generated by massive amount of subject-specific expert models. Specifically, we
mine millions of image clusters from the Internet, each centered around a
specific visual subject. We adopt these clusters to train massive amount of
expert models specialized on different subjects. The apprentice model SuTI then
learns to mimic the behavior of these experts through the proposed
apprenticeship learning algorithm. SuTI can generate high-quality and
customized subject-specific images 20x faster than optimization-based SoTA
methods. On the challenging DreamBench and DreamBench-v2, our human evaluation
shows that SuTI can significantly outperform existing approaches like
InstructPix2Pix, Textual Inversion, Imagic, Prompt2Prompt, Re-Imagen while
performing on par with DreamBooth.
- Abstract(参考訳): dreamboothのような最近のテキストから画像への生成モデルは、いくつかの例から与えられた主題に対して‘専門家モデル’を微調整することで、高度にカスタマイズされた対象のイメージを生成するという大きな進歩を遂げている。
しかし、このプロセスは高価であり、各主題について新しい専門家モデルを学ぶ必要がある。
本稿では,主題固有の微調整を \emph{in-context} 学習に置き換える,主題駆動のテキスト対イメージ生成器であるsutiを提案する。
新たな主題のデモがいくつかあると、SuTIは主題固有の最適化を使わずに、異なる場面で対象の新たな再帰を即座に生成できる。
SuTIは、大量の主題固有の専門家モデルによって生成されたデータから単一の見習いモデルを学習する。
具体的には、インターネットから何百万ものイメージクラスタを発掘し、それぞれが特定のビジュアルテーマを中心にしています。
これらのクラスタを採用して、異なる主題に特化した大量のエキスパートモデルをトレーニングしています。
次に、見習いモデルSuTIは、提案された見習い学習アルゴリズムを通じて、これらの専門家の振る舞いを模倣することを学ぶ。
SuTIは最適化ベースのSoTA法よりも20倍高速で高品質でカスタマイズされた画像を生成することができる。
挑戦的なDreamBenchとDreamBench-v2では、SuTIが既存のアプローチであるInstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagenを、DreamBoothと同等のパフォーマンスで大幅に上回ります。
関連論文リスト
- JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - InstructBooth: Instruction-following Personalized Text-to-Image
Generation [30.89054609185801]
InstructBoothは、パーソナライズされたテキスト・ツー・イメージモデルにおける画像テキストアライメントを強化するために設計された新しい方法である。
提案手法はまず,一意の識別子を用いて,少数の被写体固有の画像でテキスト・ツー・イメージ・モデルをパーソナライズする。
パーソナライズ後、強化学習を用いてパーソナライズされたテキスト・ツー・イメージモデルを微調整し、画像・テキストのアライメントを定量化する報酬を最大化する。
論文 参考訳(メタデータ) (2023-12-04T20:34:46Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Diffusion idea exploration for art generation [0.10152838128195467]
拡散モデルは最近、クロスモーダルデータを用いた画像生成タスクにおいて、他の生成モデルよりも優れています。
このタスクの新たな画像生成の初期実験は、有望な質的結果を示した。
論文 参考訳(メタデータ) (2023-07-11T02:35:26Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。
トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。
次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (2022-08-25T17:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。