Fugu-MT 論文翻訳(概要): Face0: Instantaneously Conditioning a Text-to-Image Model on a Face

論文の概要: Face0: Instantaneously Conditioning a Text-to-Image Model on a Face

arxiv url: http://arxiv.org/abs/2306.06638v1
Date: Sun, 11 Jun 2023 09:52:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 17:38:18.952416
Title: Face0: Instantaneously Conditioning a Text-to-Image Model on a Face
Title（参考訳）: Face0: 瞬時に顔にテキスト-画像モデルを設定する
Authors: Dani Valevski, Danny Wasserman, Yossi Matias, Yaniv Leviathan
Abstract要約: 顔にテキスト・ツー・イメージ生成モデルを瞬時に条件付ける新しい方法であるFace0を提案する。アノテーション付き画像のデータセットを包含した顔の埋め込みで拡張し、拡張データセット上で画像生成モデルを訓練する。提案手法は, 極めてシンプルで, 極めて高速であり, 基礎となるモデルに新たな機能を持たせる。
参考スコア（独自算出の注目度）: 3.5150821092068383
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Face0, a novel way to instantaneously condition a text-to-image generation model on a face, in sample time, without any optimization procedures such as fine-tuning or inversions. We augment a dataset of annotated images with embeddings of the included faces and train an image generation model, on the augmented dataset. Once trained, our system is practically identical at inference time to the underlying base model, and is therefore able to generate images, given a user-supplied face image and a prompt, in just a couple of seconds. Our method achieves pleasing results, is remarkably simple, extremely fast, and equips the underlying model with new capabilities, like controlling the generated images both via text or via direct manipulation of the input face embeddings. In addition, when using a fixed random vector instead of a face embedding from a user supplied image, our method essentially solves the problem of consistent character generation across images. Finally, while requiring further research, we hope that our method, which decouples the model's textual biases from its biases on faces, might be a step towards some mitigation of biases in future text-to-image models.
Abstract（参考訳）: 提案するface0は,ファインチューニングやインバージョンなどの最適化手順を必要とせず,テキスト対画像生成モデルをサンプル時間に瞬時に条件付けする新しい手法である。アノテーション付き画像のデータセットを包含した顔の埋め込みで拡張し、拡張データセット上で画像生成モデルを訓練する。一度トレーニングすると、システムは基本的に、基礎となるベースモデルと推論時に同一であり、ユーザから供給された顔画像とプロンプトから、わずか数秒で画像を生成することができる。提案手法は,非常にシンプルで,非常に高速で,テキストによる生成画像制御や入力面埋め込みの直接操作など,基礎となるモデルに新たな機能を備えている。さらに,ユーザが提供する画像からの顔埋め込みの代わりに固定ランダムベクトルを使用する場合,本手法は画像間の一貫した文字生成の問題を本質的に解決する。最後に、さらなる研究を要しながら、このモデルのテキストバイアスを顔へのバイアスから分離する手法が、将来のテキスト対画像モデルのバイアス緩和に向けた一歩となることを期待する。

関連論文リスト

CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation [59.257513664564996]
テキストプロンプトや画像から360度パノラマを生成する新しい手法を提案する。我々は多視点拡散モデルを用いて立方体の6つの面を合成する。本モデルでは,テキストのきめ細かい制御,高解像度パノラマ画像の生成,トレーニングセットを越えた一般化を実現している。
論文参考訳（メタデータ） (2025-01-28T18:59:49Z)
Diffusion Self-Distillation for Zero-Shot Customized Image Generation [40.11194010431839]
Diffusion Self-Distillationは、テキスト条件のイメージ・ツー・イメージタスクのための独自のデータセットを生成する方法である。まず、画像のグリッドを作成するために、テキスト・ツー・イメージ拡散モデルのコンテキスト内生成機能を利用する。次に、キュレートされたペア化されたデータセットを使用して、テキストからイメージへのモデルに微調整する。
論文参考訳（メタデータ） (2024-11-27T18:58:52Z)
OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-26T07:07:48Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Regeneration Based Training-free Attribution of Fake Images Generated by Text-to-Image Generative Models [39.33821502730661]
そこで本研究では,テキスト・ツー・イメージ・モデルによって生成された偽画像をソース・モデルに属性付けするためのトレーニング不要な手法を提案する。テスト画像と候補画像の類似性を計算し、ランキングすることにより、画像のソースを決定することができる。
論文参考訳（メタデータ） (2024-03-03T11:55:49Z)
DreamIdentity: Improved Editability for Efficient Face-identity Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文参考訳（メタデータ） (2023-07-01T11:01:17Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)
S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation [11.724779328025589]
本稿では,S2FGANと呼ばれるスケッチ・ツー・イメージ生成フレームワークを提案する。我々は2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2020-11-30T13:42:39Z)
Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文参考訳（メタデータ） (2020-07-17T15:58:05Z)
Face Attribute Invertion [0.0]
本稿では,自動顔属性逆解析のためのGANに基づく新しい自己認識手法を提案する。我々のモデルは訓練において非常に安定しており、元の顔画像の細部を保存できる。
論文参考訳（メタデータ） (2020-01-14T08:41:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。