論文の概要: T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up
- arxiv url: http://arxiv.org/abs/2208.12752v2
- Date: Sun, 21 May 2023 09:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 05:57:10.413585
- Title: T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up
- Title(参考訳): t-person-gan:アイデンティティと多様体混合を用いたテキスト対人画像生成
- Authors: Deyin Liu, Lin Wu, Bo Li, Zongyuan Ge
- Abstract要約: テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
- 参考スコア(独自算出の注目度): 19.687929118110617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an end-to-end approach to generate high-resolution
person images conditioned on texts only. State-of-the-art text-to-image
generation models are mainly designed for center-object generation, e.g.,
flowers and birds. Unlike center-placed objects with similar shapes and
orientation, person image generation is a more challenging task, for which we
observe the followings: 1) the generated images for the same person exhibit
visual details with identity-consistency, e.g., identity-related
textures/clothes/shoes across the images, and 2) those images should be
discriminant for being robust against the inter-person variations caused by
visual ambiguities. To address the above challenges, we develop an effective
generative model to produce person images with two novel mechanisms. In
particular, our first mechanism (called T-Person-GAN-ID) is to integrate the
one-stream generator with an identity-preserving network such that the
representations of generated data are regularized in their feature space to
ensure the identity-consistency. The second mechanism (called
T-Person-GAN-ID-MM) is based on the manifold mix-up to produce mixed images via
the linear interpolation across generated images from different manifold
identities, and we further enforce such interpolated images to be linearly
classified in the feature space. This amounts to learning a linear
classification boundary that can perfectly separate images from two identities.
Our proposed method is empirically validated to achieve a remarkable
improvement in text-to-person image generation. Our architecture is orthogonal
to StackGAN++ , and focuses on person image generation, with all of them
together to enrich the spectrum of GANs for the image generation task. Codes
are available on
\url{https://github.com/linwu-github/Person-Image-Generation.git}.
- Abstract(参考訳): 本稿では,テキストのみに条件付き高解像度人物画像を生成するためのエンドツーエンドアプローチを提案する。
State-of-the-the-art text-to-image generation modelは主に花や鳥などの中心オブジェクトの生成のために設計されている。
類似した形状と向きを持つ中心配置オブジェクトとは異なり、人物画像生成はより困難な作業であり、以下に示すように観察する。
1)同一人物の生成した画像は、識別に一貫性のある視覚的詳細を示す。
2)これらの画像は,視覚的あいまいさによって引き起こされる対人的変動に対して頑健でなければならない。
上記の課題に対処するため,我々は2つの新しいメカニズムを持つ人物画像を生成する効果的な生成モデルを開発した。
特に、我々の最初のメカニズム(T-Person-GAN-ID)は、一ストリームジェネレータとID保存ネットワークを統合することで、生成したデータの表現が特徴空間で正規化され、ID一貫性が保証される。
第2のメカニズム(t-person-gan-id-mmと呼ばれる)は、多様体のミックスアップに基づき、異なる多様体の同一性から生成された画像の線形補間を介して混合画像を生成する。
これは、2つのアイデンティティから画像を完全に分離できる線形分類境界を学習するためである。
提案手法は,テキスト対人画像生成における顕著な改善を実現するために実証的に検証される。
我々のアーキテクチャはStackGAN++と直交しており、画像生成タスクのためにGANのスペクトルを豊かにするために、人画像生成に重点を置いている。
コードは \url{https://github.com/linwu-github/person-image-generation.git} で入手できる。
関連論文リスト
- Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Generative Unlearning for Any Identity [6.872154067622779]
プライバシー問題に関連する特定の領域では、高度な生成モデルと強力な反転法が潜在的な誤用につながる可能性がある。
生成的アイデンティティアンラーニング(generative identity unlearning)という,特定のアイデンティティのイメージを生成しないモデルを提案する。
本稿では,1つの画像のみを用いて生成元をアンラーニングすることで,特定のアイデンティティの再構築を防止する新しいフレームワーク,GUIDE(Generative Unlearning for Any Identity)を提案する。
論文 参考訳(メタデータ) (2024-05-16T08:00:55Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - DVG-Face: Dual Variational Generation for Heterogeneous Face Recognition [85.94331736287765]
我々は、HFRを二重生成問題として定式化し、新しいDual Variational Generation(DVG-Face)フレームワークを用いてそれに取り組む。
大規模可視データの豊富なアイデンティティ情報を結合分布に統合する。
同一の同一性を持つ多種多様な多種多様な画像は、ノイズから生成することができる。
論文 参考訳(メタデータ) (2020-09-20T09:48:24Z) - XingGAN for Person Image Generation [149.54517767056382]
本稿では,人物画像生成タスクのための新しいジェネレーティブ・アドバイザリアル・ネットワーク(XingGAN)を提案する。
XingGANは、人物の外観と形状をモデル化する2世代ブランチで構成されている。
提案したXingGANは,客観的な定量的スコアと主観的視覚的現実性の観点から,最先端のパフォーマンスを向上することを示す。
論文 参考訳(メタデータ) (2020-07-17T23:40:22Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。