論文の概要: Cross Initialization for Personalized Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2312.15905v1
- Date: Tue, 26 Dec 2023 06:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:42:54.903010
- Title: Cross Initialization for Personalized Text-to-Image Generation
- Title(参考訳): 個人化テキスト・画像生成のためのクロス初期化
- Authors: Lianyu Pang, Jian Yin, Haoran Xie, Qiping Wang, Qing Li, Xudong Mao
- Abstract要約: Textual Inversionに基づく手法は、再構築品質と編集性の間のトレードオフのバランスに苦慮している。
初期化と学習した埋め込みのギャップを著しく狭めるクロス初期化を導入する。
クロス初期化と組み合わせることで、この正規化用語は効率よく編集性を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 13.474653749415582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a surge in face personalization techniques,
benefiting from the advanced capabilities of pretrained text-to-image diffusion
models. Among these, a notable method is Textual Inversion, which generates
personalized images by inverting given images into textual embeddings. However,
methods based on Textual Inversion still struggle with balancing the trade-off
between reconstruction quality and editability. In this study, we examine this
issue through the lens of initialization. Upon closely examining traditional
initialization methods, we identified a significant disparity between the
initial and learned embeddings in terms of both scale and orientation. The
scale of the learned embedding can be up to 100 times greater than that of the
initial embedding. Such a significant change in the embedding could increase
the risk of overfitting, thereby compromising the editability. Driven by this
observation, we introduce a novel initialization method, termed Cross
Initialization, that significantly narrows the gap between the initial and
learned embeddings. This method not only improves both reconstruction and
editability but also reduces the optimization steps from 5000 to 320.
Furthermore, we apply a regularization term to keep the learned embedding close
to the initial embedding. We show that when combined with Cross Initialization,
this regularization term can effectively improve editability. We provide
comprehensive empirical evidence to demonstrate the superior performance of our
method compared to the baseline methods. Notably, in our experiments, Cross
Initialization is the only method that successfully edits an individual's
facial expression. Additionally, a fast version of our method allows for
capturing an input image in roughly 26 seconds, while surpassing the baseline
methods in terms of both reconstruction and editability. Code will be made
publicly available.
- Abstract(参考訳): 近年、事前訓練されたテキスト・画像拡散モデルの高度な能力の恩恵を受け、顔のパーソナライズ技術が急増している。
その中でも注目すべきは、与えられた画像をテキスト埋め込みに変換することによってパーソナライズされた画像を生成するテキスト変換である。
しかし、Textual Inversionに基づく手法は、再構築品質と編集性の間のトレードオフのバランスに苦慮している。
本研究では,この問題を初期化レンズを用いて検討する。
従来の初期化手法を綿密に検討した結果,初期と学習した埋め込みとでは,スケールと向きの両面で大きな差異が認められた。
学習した組込みの規模は、最初の組込みの100倍まで大きくなる可能性がある。
このような埋め込みの大幅な変更は、過度に適合するリスクを増大させ、編集性を損なう可能性がある。
この観察により,初期化と学習した埋め込みのギャップを著しく狭める,クロス初期化と呼ばれる新しい初期化手法が導入された。
この方法は、復元性と編集性の両方を改善するだけでなく、最適化手順を5000から320に短縮する。
さらに,学習埋め込みを初期埋め込みに近いものにするために正規化項を適用する。
クロス初期化と組み合わせると,この正規化用語は編集性が効果的に向上することを示す。
基本手法と比較して,提案手法の優れた性能を示すための総合的な実証的証拠を提供する。
特に、我々の実験では、人物の表情をうまく編集する唯一の方法がクロス初期化である。
さらに,本手法の高速版では,約26秒で入力画像のキャプチャが可能であり,復元と編集性の両面でベースラインメソッドを上回っている。
コードは公開される予定だ。
関連論文リスト
- CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。
CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。
本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文 参考訳(メタデータ) (2024-08-22T14:12:20Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Latent Inversion with Timestep-aware Sampling for Training-free Non-rigid Editing [56.536695050042546]
安定拡散を用いた非剛性編集のための学習自由アプローチを提案する。
提案手法は,テキスト最適化,潜時反転,タイムステップ対応テキストインジェクションサンプリングの3段階からなる。
本手法の有効性を,アイデンティティの保存,編集性,美的品質の観点から示す。
論文 参考訳(メタデータ) (2024-02-13T17:08:35Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z) - PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding [11.985768957782641]
本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。
複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
論文 参考訳(メタデータ) (2020-07-02T09:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。