論文の概要: Text-to-Sticker: Style Tailoring Latent Diffusion Models for Human Expression
- arxiv url: http://arxiv.org/abs/2311.10794v2
- Date: Thu, 03 Oct 2024 09:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:29:42.335105
- Title: Text-to-Sticker: Style Tailoring Latent Diffusion Models for Human Expression
- Title(参考訳): Text-to-Sticker:人間の表現のためのスタイルテーラーラテント拡散モデル
- Authors: Animesh Sinha, Bo Sun, Anmol Kalia, Arantxa Casanova, Elliot Blanchard, David Yan, Winnie Zhang, Tony Nelli, Jiahui Chen, Hardik Shah, Licheng Yu, Mitesh Kumar Singh, Ankit Ramchandani, Maziar Sanjabi, Sonal Gupta, Amy Bearman, Dhruv Mahajan,
- Abstract要約: スタイルテイラーリング(Style Tailoring)は、視覚的品質、迅速なアライメント、シーンの多様性を持つ異なる領域において、潜在拡散モデル(LDM)を微調整するレシピである。
Emuのような有能なテキスト・ツー・イメージモデルから始めると、ステッカーを生成するためのフォトリアリスティックなモデルによって、迅速なアライメントとシーンの多様性を損なうことが示されます。
そこで我々は,コンテンツとスタイルの分布を協調的に適合させ,最良のトレードオフを実現する,スタイルタイラー方式という新しいファインチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 28.612666696731964
- License:
- Abstract: We introduce Style Tailoring, a recipe to finetune Latent Diffusion Models (LDMs) in a distinct domain with high visual quality, prompt alignment and scene diversity. We choose sticker image generation as the target domain, as the images significantly differ from photorealistic samples typically generated by large-scale LDMs. We start with a competent text-to-image model, like Emu, and show that relying on prompt engineering with a photorealistic model to generate stickers leads to poor prompt alignment and scene diversity. To overcome these drawbacks, we first finetune Emu on millions of sticker-like images collected using weak supervision to elicit diversity. Next, we curate human-in-the-loop (HITL) Alignment and Style datasets from model generations, and finetune to improve prompt alignment and style alignment respectively. Sequential finetuning on these datasets poses a tradeoff between better style alignment and prompt alignment gains. To address this tradeoff, we propose a novel fine-tuning method called Style Tailoring, which jointly fits the content and style distribution and achieves best tradeoff. Evaluation results show our method improves visual quality by 14%, prompt alignment by 16.2% and scene diversity by 15.3%, compared to prompt engineering the base Emu model for stickers generation.
- Abstract(参考訳): 視覚的品質,アライメントの迅速化,シーンの多様性の両面において,LDM(Latent Diffusion Models)を微調整するためのレシピであるStyle Tailoringを紹介した。
対象領域としてステッカー画像生成を選択するが、画像は大規模なLCDによって生成されるフォトリアリスティックなサンプルとは大きく異なる。
Emuのような有能なテキスト・ツー・イメージモデルから始めると、ステッカーを生成するためのフォトリアリスティックなモデルで迅速なエンジニアリングに頼ることで、迅速なアライメントやシーンの多様性を損なうことが示されます。
これらの欠点を克服するために、私たちはまず、多様性を引き出すために弱い監督を用いて収集された何百万ものステッカーのような画像に対して、Emuを微調整しました。
次に、モデル世代からHuman-in-the-loop(HITL)アライメントとスタイルデータセットをキュレートし、ファインチューンをそれぞれ改善し、即時アライメントとスタイルアライメントを改善する。
これらのデータセットの連続的な微調整は、より良いスタイルアライメントと迅速なアライメントゲインとのトレードオフをもたらす。
このトレードオフに対処するために、コンテンツとスタイルの分布を協調的に適合させ、最良のトレードオフを実現する、スタイルタイラー方式(Style Tailoring)という新しい微調整手法を提案する。
評価の結果,ステッカー生成のための基本Emuモデルよりも視品質が14%向上し,アライメントが16.2%向上し,シーンの多様性が15.3%向上した。
関連論文リスト
- Style-Friendly SNR Sampler for Style-Driven Generation [41.59110395848738]
参照画像による微調整は最も有望な手法であるが、しばしば事前訓練に使用する目標と雑音レベルの分布を盲目的に利用する。
本研究では,SNR分布を微調整時に高雑音レベルに積極的にシフトさせるSNRサンプリング器を提案する。
これにより、モデルは独自のスタイルをキャプチャし、より高いスタイルアライメントで画像を生成することができる。
論文 参考訳(メタデータ) (2024-11-22T08:29:25Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Obtaining Favorable Layouts for Multiple Object Generation [50.616875565173274]
大規模なテキスト・ツー・イメージモデルでは、テキスト・プロンプトに基づいて高品質で多様な画像を生成することができる。
しかし、既存の最先端拡散モデルでは、複数の被写体を含む画像を生成する際に困難に直面している。
誘導原理に基づく新しい手法を提案し、拡散モデルが最初にレイアウトを提案し、次にレイアウトグリッドを並べ替えることを可能にする。
これは、提案したマスクに固執するようにクロスアテンションマップ(XAM)を強制し、潜在マップから私たちによって決定された新しい場所へピクセルを移動させることによって達成される。
論文 参考訳(メタデータ) (2024-05-01T18:07:48Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - InstructBooth: Instruction-following Personalized Text-to-Image
Generation [30.89054609185801]
InstructBoothは、パーソナライズされたテキスト・ツー・イメージモデルにおける画像テキストアライメントを強化するために設計された新しい方法である。
提案手法はまず,一意の識別子を用いて,少数の被写体固有の画像でテキスト・ツー・イメージ・モデルをパーソナライズする。
パーソナライズ後、強化学習を用いてパーソナライズされたテキスト・ツー・イメージモデルを微調整し、画像・テキストのアライメントを定量化する報酬を最大化する。
論文 参考訳(メタデータ) (2023-12-04T20:34:46Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。