論文の概要: CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization
- arxiv url: http://arxiv.org/abs/2408.15914v1
- Date: Wed, 28 Aug 2024 16:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:21:26.825241
- Title: CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization
- Title(参考訳): CoRe: テキスト対画像パーソナライゼーションのためのコンテキスト規則型テキスト埋め込み学習
- Authors: Feize Wu, Yun Pang, Junyi Zhang, Lianyu Pang, Jian Yin, Baoquan Zhao, Qing Li, Xudong Mao,
- Abstract要約: コンテクスト規則化(CoRe)を導入し、コンテクストトークンをプロンプトに正規化することで、新しい概念のテキスト埋め込みの学習を強化する。
CoReは、対応する画像の生成を必要とせずに任意のプロンプトに適用することができる。
包括的実験により,本手法は識別保存法とテキストアライメント法の両方において,いくつかの基本的手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 14.01847471143144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image personalization have enabled high-quality and controllable image synthesis for user-provided concepts. However, existing methods still struggle to balance identity preservation with text alignment. Our approach is based on the fact that generating prompt-aligned images requires a precise semantic understanding of the prompt, which involves accurately processing the interactions between the new concept and its surrounding context tokens within the CLIP text encoder. To address this, we aim to embed the new concept properly into the input embedding space of the text encoder, allowing for seamless integration with existing tokens. We introduce Context Regularization (CoRe), which enhances the learning of the new concept's text embedding by regularizing its context tokens in the prompt. This is based on the insight that appropriate output vectors of the text encoder for the context tokens can only be achieved if the new concept's text embedding is correctly learned. CoRe can be applied to arbitrary prompts without requiring the generation of corresponding images, thus improving the generalization of the learned text embedding. Additionally, CoRe can serve as a test-time optimization technique to further enhance the generations for specific prompts. Comprehensive experiments demonstrate that our method outperforms several baseline methods in both identity preservation and text alignment. Code will be made publicly available.
- Abstract(参考訳): 近年のテキスト・ツー・イメージのパーソナライゼーションの進歩により、ユーザが提供する概念に対して高品質で制御可能な画像合成が可能になった。
しかし、既存の手法は、アイデンティティ保存とテキストアライメントのバランスを取るのに依然として苦労している。
提案手法は,新しい概念とCLIPテキストエンコーダ内のコンテキストトークン間のインタラクションを正確に処理する,プロンプトの正確な意味理解を必要とするという事実に基づいている。
そこで本研究では,テキストエンコーダの入力埋め込み空間に新しい概念を適切に組み込むことを目標とし,既存のトークンとのシームレスな統合を実現する。
コンテクスト規則化(CoRe)を導入し、コンテクストトークンをプロンプトに正規化することで、新しい概念のテキスト埋め込みの学習を強化する。
これは、コンテキストトークンに対するテキストエンコーダの適切な出力ベクトルは、新しい概念のテキスト埋め込みが正しく学習された場合にのみ達成できるという知見に基づいている。
CoReは、対応する画像の生成を必要とせずに任意のプロンプトに適用できるため、学習されたテキスト埋め込みの一般化が向上する。
さらに、CoReはテスト時の最適化技術として機能し、特定のプロンプトの世代をさらに強化することができる。
包括的実験により,本手法は識別保存法とテキストアライメント法の両方において,いくつかの基本的手法より優れていることが示された。
コードは公開されます。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - CoAPT: Context Attribute words for Prompt Tuning [5.811993982861212]
少数/ゼロショット画像分類のための新しいプロンプトチューニング手法であるCoAPTを提案する。
中心となる動機は、属性は特定の概念に関する豊富な情報を持つ記述的な単語であるということである。
CoAPTは単語を学習可能なプロンプトチューニングに追加のプロンプトとして統合し、既存の様々なプロンプトチューニング手法に簡単に組み込むことができる。
論文 参考訳(メタデータ) (2024-07-18T08:58:01Z) - Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace [52.24866347353916]
本稿では,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
また,テキスト部分空間の基底を決定するための効率的な選択戦略を提案する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
論文 参考訳(メタデータ) (2024-06-30T06:41:21Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。