論文の概要: cycle text2face: cycle text-to-face gan via transformers
- arxiv url: http://arxiv.org/abs/2206.04503v1
- Date: Thu, 9 Jun 2022 13:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 20:38:33.755309
- Title: cycle text2face: cycle text-to-face gan via transformers
- Title(参考訳): cycle text2face: cycle text-to-face gan via transformers
- Authors: Faezeh Gholamrezaie, Mohammad Manthouri
- Abstract要約: Cycle Text2Faceはエンコーダ部分の新しいイニシアチブで、文変換器とGANを使ってテキストで記述された画像を生成する。
我々は、CelebAデータセットを用いてモデルを評価し、従来のGANモデルよりも優れた結果をもたらす。
このモデルは高速な処理で、短時間で高品質な顔画像を提供する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-face is a subset of text-to-image that require more complex
architecture due to their more detailed production. In this paper, we present
an encoder-decoder model called Cycle Text2Face. Cycle Text2Face is a new
initiative in the encoder part, it uses a sentence transformer and GAN to
generate the image described by the text. The Cycle is completed by reproducing
the text of the face in the decoder part of the model. Evaluating the model
using the CelebA dataset, leads to better results than previous GAN-based
models. In measuring the quality of the generate face, in addition to
satisfying the human audience, we obtain an FID score of 3.458. This model,
with high-speed processing, provides quality face images in the short time.
- Abstract(参考訳): text-to-faceはtext-to-imageのサブセットであり、より詳細な生産のためにより複雑なアーキテクチャを必要とする。
本稿では,Cycle Text2Faceと呼ばれるエンコーダデコーダモデルを提案する。
Cycle Text2Faceはエンコーダ部分の新しいイニシアチブで、文変換器とGANを使ってテキストで記述された画像を生成する。
このサイクルは、モデルのデコーダ部で顔のテキストを再生することで完了する。
CelebAデータセットを使用してモデルを評価することで、従来のGANベースのモデルよりも優れた結果が得られる。
生成顔の質を測定する際, 観客の満足度に加えて, FIDスコア3.458を得る。
このモデルは高速処理で、短時間で高品質な顔画像を提供する。
関連論文リスト
- Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - Face0: Instantaneously Conditioning a Text-to-Image Model on a Face [3.5150821092068383]
顔にテキスト・ツー・イメージ生成モデルを瞬時に条件付ける新しい方法であるFace0を提案する。
アノテーション付き画像のデータセットを包含した顔の埋め込みで拡張し、拡張データセット上で画像生成モデルを訓練する。
提案手法は, 極めてシンプルで, 極めて高速であり, 基礎となるモデルに新たな機能を持たせる。
論文 参考訳(メタデータ) (2023-06-11T09:52:03Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Faces \`a la Carte: Text-to-Face Generation via Attribute
Disentanglement [9.10088750358281]
Text-to-Face (TTF) は多様なコンピュータビジョンアプリケーションにおいて大きな可能性を秘めている課題である。
本研究では,高解像度(1024×1024)で画像を生成するテキスト・ツー・フェイスモデルを提案する。
実験結果から,TTF-HDは最先端の性能を有する高品質な顔を生成することが示された。
論文 参考訳(メタデータ) (2020-06-13T10:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。