論文の概要: TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder
- arxiv url: http://arxiv.org/abs/2409.08248v1
- Date: Thu, 12 Sep 2024 17:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 15:35:07.467752
- Title: TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder
- Title(参考訳): TextBoost: 微調整テキストエンコーダによるテキスト間画像モデルのワンショットパーソナライズに向けて
- Authors: NaHyeon Park, Kunhee Kim, Hyunjung Shim,
- Abstract要約: 本稿では、テキストプロンプトによる制御可能な画像の作成を可能にする、オーバーフィッティングの軽減によるワンショットパーソナライゼーションの課題に対処する。
パーソナライズ性能を高めるための3つの重要な手法を紹介する。(1)機能障害の促進と過剰適合の緩和のための拡張トークン、(2)言語ドリフトの低減と多様なプロンプト間の一般化性向上のための知識保存損失、(3)効率的なトレーニングのためのSNR重み付きサンプリング。
- 参考スコア(独自算出の注目度): 13.695128139074285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in text-to-image models have opened up promising research avenues in personalized image generation, enabling users to create diverse images of a specific subject using natural language prompts. However, existing methods often suffer from performance degradation when given only a single reference image. They tend to overfit the input, producing highly similar outputs regardless of the text prompt. This paper addresses the challenge of one-shot personalization by mitigating overfitting, enabling the creation of controllable images through text prompts. Specifically, we propose a selective fine-tuning strategy that focuses on the text encoder. Furthermore, we introduce three key techniques to enhance personalization performance: (1) augmentation tokens to encourage feature disentanglement and alleviate overfitting, (2) a knowledge-preservation loss to reduce language drift and promote generalizability across diverse prompts, and (3) SNR-weighted sampling for efficient training. Extensive experiments demonstrate that our approach efficiently generates high-quality, diverse images using only a single reference image while significantly reducing memory and storage requirements.
- Abstract(参考訳): 近年のテキスト・ツー・イメージモデルにおけるブレークスルーは、パーソナライズされた画像生成における有望な研究の道を開き、ユーザーは自然言語のプロンプトを使って、特定の主題の多様な画像を作成することができるようになった。
しかし、既存の手法は単一の参照画像のみを与えられた場合、しばしば性能劣化に悩まされる。
彼らは入力に過度に適合し、テキストのプロンプトに関係なく非常に類似した出力を生成する傾向がある。
本稿では、テキストプロンプトによる制御可能な画像の作成を可能にする、オーバーフィッティングの軽減によるワンショットパーソナライゼーションの課題に対処する。
具体的には,テキストエンコーダに着目した微調整戦略を提案する。
さらに, パーソナライズ性能を高めるための3つの重要な手法を紹介し, 1) 特徴のゆがみを助長し, 過剰適合を緩和する拡張トークン, (2) 言語ドリフトを減らし, 多様なプロンプトをまたいだ一般化性を促進する知識保存損失, (3) 効率的なトレーニングのためのSNR重み付きサンプリングを紹介する。
大規模な実験により, 単一の参照画像のみを用いて, 高品質で多様な画像を効率よく生成し, メモリとストレージの要求を大幅に低減した。
関連論文リスト
- Layout Agnostic Scene Text Image Synthesis with Diffusion Models [42.37340959594495]
SceneTextGenは、事前に定義されたレイアウトステージの必要性を回避するために特別に設計された、拡散ベースの新しいモデルである。
SceneTextGenの新規性は、3つの重要なコンポーネントを統合している: 詳細なタイポグラフィ特性をキャプチャする文字レベルエンコーダと、不要なテキスト生成とマイナーな文字不正確な問題に対処する文字レベルインスタンスセグメンテーションモデルと、ワードレベルスポッティングモデルである。
論文 参考訳(メタデータ) (2024-06-03T07:20:34Z) - Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - ConES: Concept Embedding Search for Parameter Efficient Tuning Large
Vision Language Models [21.15548013842187]
本稿では,迅速な埋め込みを最適化してConES(Concept Embedding Search)アプローチを提案する。
テキストエンコーダをドロップすることで、学習プロセスを大幅に高速化することができます。
我々のアプローチは、様々なダウンストリームタスクにおいて、即時チューニングとテキストの反転メソッドを破ることができる。
論文 参考訳(メタデータ) (2023-05-30T12:45:49Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。