論文の概要: Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace
- arxiv url: http://arxiv.org/abs/2407.00608v1
- Date: Sun, 30 Jun 2024 06:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:26:49.434459
- Title: Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace
- Title(参考訳): テキストサブスペースの活用によるパーソナライズドテキスト画像生成の効率化
- Authors: Shian Du, Xiaotian Cheng, Qi Qian, Henglu Wei, Yi Xu, Xiangyang Ji,
- Abstract要約: 本稿では,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
また,テキスト部分空間の基底を決定するための効率的な選択戦略を提案する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
- 参考スコア(独自算出の注目度): 52.24866347353916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized text-to-image generation has attracted unprecedented attention in the recent few years due to its unique capability of generating highly-personalized images via using the input concept dataset and novel textual prompt. However, previous methods solely focus on the performance of the reconstruction task, degrading its ability to combine with different textual prompt. Besides, optimizing in the high-dimensional embedding space usually leads to unnecessary time-consuming training process and slow convergence. To address these issues, we propose an efficient method to explore the target embedding in a textual subspace, drawing inspiration from the self-expressiveness property. Additionally, we propose an efficient selection strategy for determining the basis vectors of the textual subspace. The experimental evaluations demonstrate that the learned embedding can not only faithfully reconstruct input image, but also significantly improves its alignment with novel input textual prompt. Furthermore, we observe that optimizing in the textual subspace leads to an significant improvement of the robustness to the initial word, relaxing the constraint that requires users to input the most relevant initial word. Our method opens the door to more efficient representation learning for personalized text-to-image generation.
- Abstract(参考訳): 個人化されたテキスト・画像生成は、入力概念データセットと新しいテキスト・プロンプトを用いて、高度に個人化された画像を生成するというユニークな能力により、ここ数年で前例のない注目を集めている。
しかし, 従来の手法では, 復元作業の性能にのみ焦点が当てられており, 異なるテキストプロンプトと組み合わせる能力は低下していた。
さらに、高次元埋め込み空間の最適化は、通常、不要な時間を要するトレーニングプロセスと緩やかな収束をもたらす。
これらの問題に対処するため,本論文では,自己表現性からインスピレーションを得て,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
さらに,テキスト部分空間の基底ベクトルを決定するための効率的な選択戦略を提案する。
実験により, 学習した埋め込みは入力画像を忠実に再構成するだけでなく, 新たな入力テキストプロンプトとの整合性も向上することが示された。
さらに,テキスト部分空間の最適化は,初期単語に対するロバスト性を大幅に向上させ,ユーザが最も関連性の高い初期単語を入力しなければならない制約を緩和する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
関連論文リスト
- ARTIST: Improving the Generation of Text-rich Images by Disentanglement [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Harmonizing Visual and Textual Embeddings for Zero-Shot Text-to-Image Customization [23.04290567321589]
テキスト・ツー・イメージ(T2I)モデルの急増とそのカスタマイズ手法は、ユーザが提供する対象の新たなイメージを生成する。
これらのゼロショットカスタマイズ方法は、特定の対象の画像を視覚埋め込みにエンコードし、テキスト埋め込みと共に拡散誘導に利用する。
与えられたテキスト埋め込みと効果的に調和する視覚埋め込みを提案する。
また、視覚のみの埋め込みを採用し、自己注意スワップを用いて被験者の明確な特徴を注入する。
論文 参考訳(メタデータ) (2024-03-21T06:03:51Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - From Text to Mask: Localizing Entities Using the Attention of
Text-to-Image Diffusion Models [41.66656119637025]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文 参考訳(メタデータ) (2023-09-08T04:10:01Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Unleashing the Imagination of Text: A Novel Framework for Text-to-image
Person Retrieval via Exploring the Power of Words [0.951828574518325]
文中の単語のパワーを探索する新しい枠組みを提案する。
このフレームワークは、トレーニング済みのフルCLIPモデルをイメージとテキストのデュアルエンコーダとして採用している。
ハードサンプルの処理に適したクロスモーダル三重項損失を導入し,微妙な違いを識別するモデルの能力を高めた。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - A Neural Space-Time Representation for Text-to-Image Personalization [46.772764467280986]
テキスト・ツー・イメージのパーソナライズ手法の重要な側面は、生成プロセス内でターゲット概念が表現される方法である。
本稿では,デノナイジングプロセスの時間ステップ(時間)とデノナイジングU-Netレイヤ(空間)の両方に依存する新しいテキストコンディショニング空間について検討する。
時空表現における単一の概念は、時間と空間の組み合わせごとに数百のベクトルで構成されており、この空間を直接最適化することは困難である。
論文 参考訳(メタデータ) (2023-05-24T17:53:07Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。