論文の概要: Disentangled Representation Learning for Controllable Person Image
Generation
- arxiv url: http://arxiv.org/abs/2312.05798v1
- Date: Sun, 10 Dec 2023 07:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:41:24.910374
- Title: Disentangled Representation Learning for Controllable Person Image
Generation
- Title(参考訳): 制御可能な人物画像生成のためのアンタングル表現学習
- Authors: Wenju Xu, Chengjiang Long, Yongwei Nie, Guanghui Wang
- Abstract要約: 本稿ではDRL-CPGという新しいフレームワークを提案する。
我々の知る限り、私たちは人物画像生成のためのトランスフォーマーによる非絡み合いの潜在表現を初めて学習する。
- 参考スコア(独自算出の注目度): 29.719070087384512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel framework named DRL-CPG to learn
disentangled latent representation for controllable person image generation,
which can produce realistic person images with desired poses and human
attributes (e.g., pose, head, upper clothes, and pants) provided by various
source persons. Unlike the existing works leveraging the semantic masks to
obtain the representation of each component, we propose to generate
disentangled latent code via a novel attribute encoder with transformers
trained in a manner of curriculum learning from a relatively easy step to a
gradually hard one. A random component mask-agnostic strategy is introduced to
randomly remove component masks from the person segmentation masks, which aims
at increasing the difficulty of training and promoting the transformer encoder
to recognize the underlying boundaries between each component. This enables the
model to transfer both the shape and texture of the components. Furthermore, we
propose a novel attribute decoder network to integrate multi-level attributes
(e.g., the structure feature and the attribute representation) with
well-designed Dual Adaptive Denormalization (DAD) residual blocks. Extensive
experiments strongly demonstrate that the proposed approach is able to transfer
both the texture and shape of different human parts and yield realistic
results. To our knowledge, we are the first to learn disentangled latent
representations with transformers for person image generation.
- Abstract(参考訳): 本稿では,制御可能な人物画像を生成するために,DRL-CPG という新しいフレームワークを提案する。これは,様々なソースの人物が提供した,所望のポーズと人的属性(例えば,ポーズ,頭,上着,ズボン)でリアルな人物画像を生成する。
従来のセマンティックマスクを活用して各コンポーネントの表現を得る作業とは違って,比較的簡単な段階から徐々に難しい段階へのカリキュラム学習で学習したトランスフォーマーを用いた,新しい属性エンコーダによる非絡み付き潜在コード生成を提案する。
個人セグメンテーションマスクからコンポーネントマスクをランダムに除去するランダムコンポーネントマスク非依存戦略を導入し、トレーニングの困難化とトランスフォーマーエンコーダの促進を目標とし、各コンポーネント間の基底境界を認識する。
これにより、モデルがコンポーネントの形状とテクスチャの両方を転送できる。
さらに,複数レベル属性(例えば,構造特徴と属性表現)をよく設計されたDual Adaptive Denormalization (DAD)残余ブロックと統合する属性デコーダネットワークを提案する。
広範囲にわたる実験により,提案手法は異なる人間の部位のテクスチャと形状の両方を伝達し,現実的な結果が得られることが示された。
我々の知る限り、私たちは人物画像生成のためのトランスフォーマーを用いた非絡み合った潜在表現を初めて学習する。
関連論文リスト
- Masked Face Recognition with Generative-to-Discriminative Representations [29.035270415311427]
本研究では,マスク付き顔認識を容易にするために,生成と識別の表現を学習するための統合されたディープネットワークを提案する。
まず,顔の塗り絵に予め訓練された生成エンコーダを利用して,顔のマスクをカテゴリ認識記述子に表現する。
我々は,多層畳み込みネットワークを識別的再構成器として組み込んで,カテゴリ対応記述子をアイデンティティ対応ベクトルに変換することを学習する。
論文 参考訳(メタデータ) (2024-05-27T02:20:55Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - IA-FaceS: A Bidirectional Method for Semantic Face Editing [8.19063619210761]
本稿では,顔属性の非交叉操作とフレキシブルかつ制御可能なコンポーネント編集のための双方向手法を提案する。
IA-FaceSは、セグメンテーションマスクやスケッチのような入力視覚的なガイダンスなしで初めて開発された。
定量的および定性的な結果から,提案手法は再構成,顔属性操作,コンポーネント転送において,他の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-03-24T14:44:56Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z) - Controllable Person Image Synthesis with Attribute-Decomposed GAN [27.313729413684012]
本稿では,制御可能な人物画像合成のための新しい生成モデルであるAttribute-Decomposed GANを紹介する。
提案されたモデルの中核となる考え方は、人間の属性を独立したコードとして潜在空間に埋め込むことである。
実験により,提案手法がポーズ伝達における技量よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:47:06Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。