論文の概要: Face0: Instantaneously Conditioning a Text-to-Image Model on a Face
- arxiv url: http://arxiv.org/abs/2306.06638v1
- Date: Sun, 11 Jun 2023 09:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 17:38:18.952416
- Title: Face0: Instantaneously Conditioning a Text-to-Image Model on a Face
- Title(参考訳): Face0: 瞬時に顔にテキスト-画像モデルを設定する
- Authors: Dani Valevski, Danny Wasserman, Yossi Matias, Yaniv Leviathan
- Abstract要約: 顔にテキスト・ツー・イメージ生成モデルを瞬時に条件付ける新しい方法であるFace0を提案する。
アノテーション付き画像のデータセットを包含した顔の埋め込みで拡張し、拡張データセット上で画像生成モデルを訓練する。
提案手法は, 極めてシンプルで, 極めて高速であり, 基礎となるモデルに新たな機能を持たせる。
- 参考スコア(独自算出の注目度): 3.5150821092068383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Face0, a novel way to instantaneously condition a text-to-image
generation model on a face, in sample time, without any optimization procedures
such as fine-tuning or inversions. We augment a dataset of annotated images
with embeddings of the included faces and train an image generation model, on
the augmented dataset. Once trained, our system is practically identical at
inference time to the underlying base model, and is therefore able to generate
images, given a user-supplied face image and a prompt, in just a couple of
seconds. Our method achieves pleasing results, is remarkably simple, extremely
fast, and equips the underlying model with new capabilities, like controlling
the generated images both via text or via direct manipulation of the input face
embeddings. In addition, when using a fixed random vector instead of a face
embedding from a user supplied image, our method essentially solves the problem
of consistent character generation across images. Finally, while requiring
further research, we hope that our method, which decouples the model's textual
biases from its biases on faces, might be a step towards some mitigation of
biases in future text-to-image models.
- Abstract(参考訳): 提案するface0は,ファインチューニングやインバージョンなどの最適化手順を必要とせず,テキスト対画像生成モデルをサンプル時間に瞬時に条件付けする新しい手法である。
アノテーション付き画像のデータセットを包含した顔の埋め込みで拡張し、拡張データセット上で画像生成モデルを訓練する。
一度トレーニングすると、システムは基本的に、基礎となるベースモデルと推論時に同一であり、ユーザから供給された顔画像とプロンプトから、わずか数秒で画像を生成することができる。
提案手法は,非常にシンプルで,非常に高速で,テキストによる生成画像制御や入力面埋め込みの直接操作など,基礎となるモデルに新たな機能を備えている。
さらに,ユーザが提供する画像からの顔埋め込みの代わりに固定ランダムベクトルを使用する場合,本手法は画像間の一貫した文字生成の問題を本質的に解決する。
最後に、さらなる研究を要しながら、このモデルのテキストバイアスを顔へのバイアスから分離する手法が、将来のテキスト対画像モデルのバイアス緩和に向けた一歩となることを期待する。
関連論文リスト
- Regeneration Based Training-free Attribution of Fake Images Generated by
Text-to-Image Generative Models [39.33821502730661]
そこで本研究では,テキスト・ツー・イメージ・モデルによって生成された偽画像をソース・モデルに属性付けするためのトレーニング不要な手法を提案する。
テスト画像と候補画像の類似性を計算し、ランキングすることにより、画像のソースを決定することができる。
論文 参考訳(メタデータ) (2024-03-03T11:55:49Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Face sketch to photo translation using generative adversarial networks [1.0312968200748118]
我々は、訓練済みの顔画像生成モデルを用いて、高品質な自然顔写真を合成する。
入力スケッチから抽出した顔の特徴を、顔生成モデルの潜在空間のベクトルにマッピングするネットワークを訓練する。
提案モデルでは,SSIM指数で0.655,97.59%のランク-1顔認識率が得られた。
論文 参考訳(メタデータ) (2021-10-23T20:01:20Z) - S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation [11.724779328025589]
本稿では,S2FGANと呼ばれるスケッチ・ツー・イメージ生成フレームワークを提案する。
我々は2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。
提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-30T13:42:39Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z) - Face Attribute Invertion [0.0]
本稿では,自動顔属性逆解析のためのGANに基づく新しい自己認識手法を提案する。
我々のモデルは訓練において非常に安定しており、元の顔画像の細部を保存できる。
論文 参考訳(メタデータ) (2020-01-14T08:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。