論文の概要: Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models
- arxiv url: http://arxiv.org/abs/2307.06925v1
- Date: Thu, 13 Jul 2023 17:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 13:49:37.251226
- Title: Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models
- Title(参考訳): テキスト・画像モデルの高速パーソナライズのためのドメイン非依存チューニングエンコーダ
- Authors: Moab Arar, Rinon Gal, Yuval Atzmon, Gal Chechik, Daniel Cohen-Or,
Ariel Shamir, Amit H. Bermano
- Abstract要約: テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
- 参考スコア(独自算出の注目度): 59.094601993993535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) personalization allows users to guide the creative image
generation process by combining their own visual concepts in natural language
prompts. Recently, encoder-based techniques have emerged as a new effective
approach for T2I personalization, reducing the need for multiple images and
long training times. However, most existing encoders are limited to a
single-class domain, which hinders their ability to handle diverse concepts. In
this work, we propose a domain-agnostic method that does not require any
specialized dataset or prior information about the personalized concepts. We
introduce a novel contrastive-based regularization technique to maintain high
fidelity to the target concept characteristics while keeping the predicted
embeddings close to editable regions of the latent space, by pushing the
predicted tokens toward their nearest existing CLIP tokens. Our experimental
results demonstrate the effectiveness of our approach and show how the learned
tokens are more semantic than tokens predicted by unregularized models. This
leads to a better representation that achieves state-of-the-art performance
while being more flexible than previous methods.
- Abstract(参考訳): text-to-image (t2i)パーソナライズにより、自然言語プロンプトに独自の視覚概念を組み合わせることで、創造的な画像生成プロセスをガイドすることができる。
近年、エンコーダベースの技術がT2Iパーソナライズのための新しい効果的なアプローチとして登場し、複数の画像や長いトレーニング時間の必要性が減っている。
しかし、既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
本研究では,特定のデータセットやパーソナライズされた概念に関する事前情報を必要としない,ドメインに依存しない手法を提案する。
提案手法では,予測トークンを最も近いCLIPトークンにプッシュすることで,予測された埋め込みを潜在空間の編集可能な領域に近づけつつ,目標概念特性に対する高い忠実性を維持する。
実験結果は,本手法の有効性を示し,未正規化モデルによって予測されるトークンよりも学習トークンがいかに意味的かを示す。
これにより、従来のメソッドよりも柔軟でありながら、最先端のパフォーマンスを実現するための表現性が向上する。
関連論文リスト
- Generating Multi-Image Synthetic Data for Text-to-Image Customization [48.59231755159313]
テキスト・ツー・イメージ・モデルのカスタマイズにより、ユーザーはカスタムのコンセプトを挿入し、目に見えない設定でコンセプトを生成することができる。
既存の方法は、コストのかかるテストタイム最適化か、マルチイメージの監督なしにシングルイメージのトレーニングデータセットのトレーニングエンコーダに依存している。
両制約に対処する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:41Z) - CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification [42.429118831928214]
CLIP(Contrastive Language- Image Pretraining)は,大規模画像テキストペア上で事前訓練された視覚言語モデルである。
CLIPのタスクへの適応は、識別能力を高めるためによりきめ細かい機能を学ぶことと、モデルの一般化能力を改善するためによりドメイン不変の機能を学ぶ、という2つの大きな課題を示す。
論文 参考訳(メタデータ) (2025-01-27T14:08:25Z) - Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。