論文の概要: InstructBooth: Instruction-following Personalized Text-to-Image
Generation
- arxiv url: http://arxiv.org/abs/2312.03011v1
- Date: Mon, 4 Dec 2023 20:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:40:19.848226
- Title: InstructBooth: Instruction-following Personalized Text-to-Image
Generation
- Title(参考訳): instructbooth: パーソナライズされたテキストからイメージへの生成
- Authors: Daewon Chae, Nokyung Park, Jinkyu Kim, Kimin Lee
- Abstract要約: InstructBoothは、パーソナライズされたテキスト・ツー・イメージモデルにおける画像テキストアライメントを強化するために設計された新しい方法である。
提案手法はまず,一意の識別子を用いて,少数の被写体固有の画像でテキスト・ツー・イメージ・モデルをパーソナライズする。
パーソナライズ後、強化学習を用いてパーソナライズされたテキスト・ツー・イメージモデルを微調整し、画像・テキストのアライメントを定量化する報酬を最大化する。
- 参考スコア(独自算出の注目度): 30.89054609185801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalizing text-to-image models using a limited set of images for a
specific object has been explored in subject-specific image generation.
However, existing methods often encounter challenges in aligning with text
prompts due to overfitting to the limited training images. In this work, we
introduce InstructBooth, a novel method designed to enhance image-text
alignment in personalized text-to-image models. Our approach first personalizes
text-to-image models with a small number of subject-specific images using a
unique identifier. After personalization, we fine-tune personalized
text-to-image models using reinforcement learning to maximize a reward that
quantifies image-text alignment. Additionally, we propose complementary
techniques to increase the synergy between these two processes. Our method
demonstrates superior image-text alignment compared to baselines while
maintaining personalization ability. In human evaluations, InstructBooth
outperforms DreamBooth when considering all comprehensive factors.
- Abstract(参考訳): 特定の対象に対して限定された画像セットを使用してテキストから画像へのモデルをパーソナライズすることは、主題特異的画像生成において研究されている。
しかし、既存の手法は、限られた訓練画像に過度に適合するため、テキストプロンプトと整合する際の課題にしばしば遭遇する。
本稿では,パーソナライズされたテキストから画像へのアライメントを強化するために設計された新しい手法であるinstructboothを提案する。
提案手法は,テキストから画像へのパーソナライズを,一意な識別子を用いて,少数の被写体固有の画像を用いて行う。
パーソナライズ後、強化学習を用いてパーソナライズされたテキスト対画像モデルを微調整し、画像とテキストのアライメントを定量化する報酬を最大化する。
さらに,この2つのプロセス間の相乗効果を高めるための補完手法を提案する。
本手法は,パーソナライズ能力を維持しながら,ベースラインよりも優れた画像テキストアライメントを示す。
人間の評価では、InstructBoothはすべての包括的な要因を考慮するとDreamBoothよりも優れています。
関連論文リスト
- Learning to Customize Text-to-Image Diffusion In Diverse Context [23.239646132590043]
殆どのテキスト・ツー・イメージのカスタマイズ技術は、最小限のコンテキストでキャプチャされた少数の人物のコンセプトイメージを微調整する。
我々は、文脈的にリッチなテキストプロンプトを単に作成することで、これらの個人概念のコンテキストを多様化する。
驚くべきことに、この単純で費用対効果の高い手法は、テキスト空間における意味的アライメントを大幅に改善する。
当社のアプローチではアーキテクチャの変更は一切必要とせず、既存のテキスト・ツー・イメージのカスタマイズ手法と互換性が高い。
論文 参考訳(メタデータ) (2024-10-14T00:53:59Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - PALP: Prompt Aligned Personalization of Text-to-Image Models [68.91005384187348]
既存のパーソナライズ手法は、パーソナライズ能力や複雑なプロンプトへのアライメントを損なう。
本稿では,この問題に対処するエフィンスル・プロンプトのためのパーソナライズ手法に着目した新しいアプローチを提案する。
本手法はテキストアライメントの改善に優れ,複雑かつ複雑なプロンプトによる画像作成を可能にする。
論文 参考訳(メタデータ) (2024-01-11T18:35:33Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Enhancing Detail Preservation for Customized Text-to-Image Generation: A
Regularization-Free Approach [43.53330622723175]
正規化を使わずにカスタマイズされたテキスト・画像生成のための新しいフレームワークを提案する。
提案したフレームワークでは,1つのGPU上で30分以内に大規模テキスト・画像生成モデルをカスタマイズできる。
論文 参考訳(メタデータ) (2023-05-23T01:14:53Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。