論文の概要: Text2Human: Text-Driven Controllable Human Image Generation
- arxiv url: http://arxiv.org/abs/2205.15996v1
- Date: Tue, 31 May 2022 17:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:57:02.279070
- Title: Text2Human: Text-Driven Controllable Human Image Generation
- Title(参考訳): Text2Human: テキスト駆動制御可能な人体画像生成
- Authors: Yuming Jiang, Shuai Yang, Haonan Qiu, Wayne Wu, Chen Change Loy, Ziwei
Liu
- Abstract要約: 既存の生成モデルは、しばしば衣服の形やテクスチャの多様性の高さの下で不足する。
テキスト駆動制御可能なフレームワークであるText2Humanを,高品質で多種多様なヒューマン世代向けに提案する。
- 参考スコア(独自算出の注目度): 98.34326708923284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-quality and diverse human images is an important yet
challenging task in vision and graphics. However, existing generative models
often fall short under the high diversity of clothing shapes and textures.
Furthermore, the generation process is even desired to be intuitively
controllable for layman users. In this work, we present a text-driven
controllable framework, Text2Human, for a high-quality and diverse human
generation. We synthesize full-body human images starting from a given human
pose with two dedicated steps. 1) With some texts describing the shapes of
clothes, the given human pose is first translated to a human parsing map. 2)
The final human image is then generated by providing the system with more
attributes about the textures of clothes. Specifically, to model the diversity
of clothing textures, we build a hierarchical texture-aware codebook that
stores multi-scale neural representations for each type of texture. The
codebook at the coarse level includes the structural representations of
textures, while the codebook at the fine level focuses on the details of
textures. To make use of the learned hierarchical codebook to synthesize
desired images, a diffusion-based transformer sampler with mixture of experts
is firstly employed to sample indices from the coarsest level of the codebook,
which then is used to predict the indices of the codebook at finer levels. The
predicted indices at different levels are translated to human images by the
decoder learned accompanied with hierarchical codebooks. The use of
mixture-of-experts allows for the generated image conditioned on the
fine-grained text input. The prediction for finer level indices refines the
quality of clothing textures. Extensive quantitative and qualitative
evaluations demonstrate that our proposed framework can generate more diverse
and realistic human images compared to state-of-the-art methods.
- Abstract(参考訳): 高品質で多様な人間の画像を生成することは、視覚とグラフィックスにおいて重要な課題である。
しかし、既存の生成モデルは衣服の形状やテクスチャの多様性に欠けることが多い。
さらに、生成プロセスは、素人ユーザに対して直感的に制御可能であることも望まれる。
本稿では,高品質かつ多様な人間世代のためのテキスト駆動制御フレームワークtext2humanを提案する。
我々は、与えられた人間のポーズから始めて、人間の全身イメージを2つの専用ステップで合成する。
1) 衣服の形状を記述した書面がいくつかあることから, 与えられた人間のポーズをまず人間のパーシングマップに翻訳する。
2)最終的な人間の画像は,衣服のテクスチャに関する属性をシステムに提供することで生成される。
具体的には、衣服のテクスチャの多様性をモデル化するために、階層的なテクスチャ対応のコードブックを構築します。
粗いレベルのコードブックにはテクスチャの構造表現が含まれており、細かいレベルのコードブックはテクスチャの詳細に焦点を当てている。
学習された階層的コードブックを用いて所望の画像を合成するために、まず、コードブックの粗いレベルからインデックスをサンプリングするために、専門家が混在した拡散ベースのトランスフォーマサンプラーを使用し、より細かいレベルでコードブックのインデックスを予測する。
異なるレベルの予測インデックスは、階層的なコードブックとともに学習したデコーダによって人間の画像に変換される。
mix-of-expertsを使用することで、きめ細かいテキスト入力に基づいて生成された画像を生成することができる。
より細かいレベルの指標の予測は、衣料品のテクスチャの質を洗練させる。
定量的・質的評価により,提案手法は最先端の手法に比べ,より多様で現実的な人間像を生成できることを示した。
関連論文リスト
- TexVocab: Texture Vocabulary-conditioned Human Avatars [42.170169762733835]
TexVocabは、テクスチャ語彙を構築し、ボディポーズをアニメーション用のテクスチャマップに関連付ける新しいアバター表現である。
提案手法は,RGBビデオから詳細な動的外見を持つアニマタブルなヒトアバターを作成できる。
論文 参考訳(メタデータ) (2024-03-31T01:58:04Z) - CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - TextureDreamer: Image-guided Texture Synthesis through Geometry-aware
Diffusion [64.49276500129092]
TextureDreamerは画像誘導型テクスチャ合成法である。
少数の入力画像から任意のカテゴリでターゲットの3D形状に光沢のあるテクスチャを転送することができる。
論文 参考訳(メタデータ) (2024-01-17T18:55:49Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - PICTURE: PhotorealistIC virtual Try-on from UnconstRained dEsigns [25.209863457090506]
人体画像にパーソナライズされた合成衣料の合成を可能にするために,制約のないデザイン(ucVTON)の新たな仮想試行を提案する。
特定の入力タイプに制約された先行技術とは異なり、本手法はスタイル(テクスチャまたはイメージ)とテクスチャ(フルウェア、クロップされたセクション、テクスチャパッチ)のフレキシブルな仕様化を可能にする。
論文 参考訳(メタデータ) (2023-12-07T18:53:18Z) - Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - Text2Performer: Text-Driven Human Video Generation [97.3849869893433]
テキストによるコンテンツ制作は、創造性に革命をもたらす変革的技術へと進化してきた。
そこで本研究では,対象パフォーマーの外観や動きを記述したテキストから映像シーケンスを合成する,テキスト駆動型ヒューマンビデオ生成の課題について検討する。
そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
論文 参考訳(メタデータ) (2023-04-17T17:59:02Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。