論文の概要: DECOR:Decomposition and Projection of Text Embeddings for Text-to-Image Customization
- arxiv url: http://arxiv.org/abs/2412.09169v1
- Date: Thu, 12 Dec 2024 10:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:33.196841
- Title: DECOR:Decomposition and Projection of Text Embeddings for Text-to-Image Customization
- Title(参考訳): DECOR:テキスト・ツー・イメージ・カスタマイズのためのテキスト埋め込みの分解と投影
- Authors: Geonhui Jang, Jin-Hwa Kim, Yong-Hyun Park, Junho Kim, Gayoung Lee, Yonghyun Jeong,
- Abstract要約: 本研究では、テキスト埋め込み行列を分解し、埋め込み空間の幾何学を理解するためにコンポーネント分析を行う。
不要なトークンベクトルに対してベクトル空間にテキスト埋め込みを投影するDECORを提案する。
実験により、DECORは最先端のカスタマイズモデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 15.920735314050296
- License:
- Abstract: Text-to-image (T2I) models can effectively capture the content or style of reference images to perform high-quality customization. A representative technique for this is fine-tuning using low-rank adaptations (LoRA), which enables efficient model customization with reference images. However, fine-tuning with a limited number of reference images often leads to overfitting, resulting in issues such as prompt misalignment or content leakage. These issues prevent the model from accurately following the input prompt or generating undesired objects during inference. To address this problem, we examine the text embeddings that guide the diffusion model during inference. This study decomposes the text embedding matrix and conducts a component analysis to understand the embedding space geometry and identify the cause of overfitting. Based on this, we propose DECOR, which projects text embeddings onto a vector space orthogonal to undesired token vectors, thereby reducing the influence of unwanted semantics in the text embeddings. Experimental results demonstrate that DECOR outperforms state-of-the-art customization models and achieves Pareto frontier performance across text and visual alignment evaluation metrics. Furthermore, it generates images more faithful to the input prompts, showcasing its effectiveness in addressing overfitting and enhancing text-to-image customization.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、参照画像の内容やスタイルを効果的にキャプチャして高品質なカスタマイズを行うことができる。
これはローランク適応 (LoRA) を用いた微調整であり、参照画像による効率的なモデルカスタマイズを可能にする。
しかし、参照画像の少ない微調整は、しばしば過度に適合し、急激なミスアライメントやコンテンツのリークといった問題を引き起こす。
これらの問題は、モデルが入力プロンプトを正確に追跡したり、推論中に望ましくないオブジェクトを生成するのを防ぐ。
この問題に対処するために、推論中に拡散モデルを導くテキスト埋め込みについて検討する。
本研究では、テキスト埋め込み行列を分解し、埋め込み空間の幾何学を理解し、オーバーフィッティングの原因を特定するためにコンポーネント分析を行う。
そこで本研究では, 不要なトークンベクトルに直交するベクトル空間にテキスト埋め込みを投影し, テキスト埋め込みにおける不要なセマンティクスの影響を低減するDECORを提案する。
実験の結果,DECORは最先端のカスタマイズモデルより優れており,テキストおよび視覚的アライメント評価指標間でのパレートフロンティア性能を実現していることがわかった。
さらに、入力プロンプトに忠実な画像を生成し、過度な適合に対処し、テキスト・ツー・イメージのカスタマイズを強化する効果を示す。
関連論文リスト
- Bridging the Gap: Aligning Text-to-Image Diffusion Models with Specific Feedback [5.415802995586328]
フィードバックからの学習は、テキスト間拡散モデルにおけるテキストプロンプトと画像の整合性を高めることが示されている。
本稿では,3段階を含む特定の報酬目標を持つ効率的な微動法を提案する。
このベンチマークによる実験結果から,本モデルはアライメントと忠実度の両方において,他のSOTA法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-28T09:56:28Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Dynamic Prompt Learning: Addressing Cross-Attention Leakage for
Text-Based Image Editing [23.00202969969574]
そこで本稿では,テキストプロンプト中の名詞の正しい単語に注意を向けるために,クロスアテンションマップを強制する動的プロンプト学習(DPL)を提案する。
本稿では,Word-Swap, Prompt Refinement, Attention Re-weightingの編集結果の改善について述べる。
論文 参考訳(メタデータ) (2023-09-27T13:55:57Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation [4.078926358349661]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、画像とテキストを共同の潜在空間に埋め込むことでブリッジする。
共同空間における画像とテキストの埋め込みの相違により、最適化対象としてテキストの埋め込みを用いることで、結果の画像に望ましくないアーティファクトがしばしば導入される。
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。