論文の概要: UPGPT: Universal Diffusion Model for Person Image Generation, Editing
and Pose Transfer
- arxiv url: http://arxiv.org/abs/2304.08870v1
- Date: Tue, 18 Apr 2023 10:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:17:53.263966
- Title: UPGPT: Universal Diffusion Model for Person Image Generation, Editing
and Pose Transfer
- Title(参考訳): UPGPT:人物画像生成・編集・メッセージ転送のためのユニバーサル拡散モデル
- Authors: Soon Yau Cheong, Armin Mustafa, Andrew Gilbert
- Abstract要約: 本稿では,統一拡散モデル (UPGPT) を提案する。
微細なマルチモーダル性と非絡み合い機能により、画像の生成と編集過程をきめ細かな制御が可能となる。
- 参考スコア(独自算出の注目度): 15.15576618501609
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing person image generative models can do either image generation or
pose transfer but not both. We propose a unified diffusion model, UPGPT to
provide a universal solution to perform all the person image tasks -
generative, pose transfer, and editing. With fine-grained multimodality and
disentanglement capabilities, our approach offers fine-grained control over the
generation and the editing process of images using a combination of pose, text,
and image, all without needing a semantic segmentation mask which can be
challenging to obtain or edit. We also pioneer the parameterized body SMPL
model in pose-guided person image generation to demonstrate new capability -
simultaneous pose and camera view interpolation while maintaining a person's
appearance. Results on the benchmark DeepFashion dataset show that UPGPT is the
new state-of-the-art while simultaneously pioneering new capabilities of edit
and pose transfer in human image generation.
- Abstract(参考訳): 既存の人物画像生成モデルは画像生成でもポーズ転送でもできるが、両方はできない。
我々は,すべての人物画像タスク生成,ポーズ転送,編集を行うための普遍的なソリューションを提供するために,統一拡散モデルであるupgptを提案する。
提案手法は,細粒度マルチモーダルとアンタングル化機能により,ポーズ,テキスト,画像の組み合わせによる画像生成と編集プロセスのきめ細かい制御を,獲得や編集が困難なセグメンテーションマスクを必要としない形で実現している。
また、ポーズ誘導型人物画像生成におけるパラメータ化ボディSMPLモデルを開拓し、人物の外観を維持しながら、新たな機能的ポーズとカメラビューの補間を示す。
ベンチマークのDeepFashionデータセットの結果は、UPGPTが新しい最先端技術であり、同時に人間の画像生成における編集とポーズ転送の新機能を開拓したことを示している。
関連論文リスト
- From Text to Pose to Image: Improving Diffusion Model Control and Quality [0.5183511047901651]
提案手法では,新しいサンプリングアルゴリズムとともにテキスト・ツー・プレイス(T2P)生成モデルを導入し,ポーズの忠実度を高めるためにより多くのポーズ・キーポイントを組み込んだ新しいポーズ・アダプタを提案する。
これら2つの新しい最先端モデルによって、拡散モデルにおける高ポーズ制御のための生成的テキスト・ツー・プレイス・ツー・イメージ・フレームワークが、初めて実現された。
論文 参考訳(メタデータ) (2024-11-19T21:34:50Z) - PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文 参考訳(メタデータ) (2024-09-10T14:09:39Z) - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - Synthesizing Moving People with 3D Control [88.68284137105654]
対象とする3次元運動系列の単一画像から人物をアニメーションする拡散モデルに基づくフレームワークを提案する。
まず,1つの画像が与えられた人の見えない部分を幻覚させる拡散モデルについて学習する。
第2に,3次元人間のポーズによって制御される拡散に基づくレンダリングパイプラインを開発する。
論文 参考訳(メタデータ) (2024-01-19T18:59:11Z) - MagicPose: Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion [22.62170098534097]
人間の2次元ポーズと表情の拡散に基づくモデルであるMagicPoseを提案する。
画像拡散モデルの事前の知識を活用することで、MagicPoseは目に見えない人間のアイデンティティや複雑なポーズをうまく一般化する。
提案したモデルは使いやすく、安定拡散に対するプラグインモジュール/拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-11-18T10:22:44Z) - AniPortraitGAN: Animatable 3D Portrait Generation from 2D Image
Collections [78.81539337399391]
顔の表情, 頭部ポーズ, 肩の動きを制御可能なポートレート画像を生成するアニマタブルな3D認識型GANを提案する。
これは、3Dやビデオデータを使用しない非構造化2次元画像コレクションで訓練された生成モデルである。
生成した顔の質を向上させるために,デュアルカメラレンダリングと対角学習方式を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:44:57Z) - Progressive and Aligned Pose Attention Transfer for Person Image
Generation [59.87492938953545]
本稿では,ある人物のポーズを対象のポーズに移す,新たなポーズ移動のための生成的広告ネットワークを提案する。
Pose-Attentional Transfer Block (PATB) と Aligned Pose-Attentional Transfer Bloc (APATB) の2種類のブロックを使用します。
Market-1501およびDeepFashionデータセットにおけるモデルの有効性を定量的および定性測定を用いて検証する。
論文 参考訳(メタデータ) (2021-03-22T07:24:57Z) - HumanGAN: A Generative Model of Humans Images [78.6284090004218]
本研究では,ポーズ,局所的な身体部分の外観,衣料品スタイルを制御できる服装者の画像生成モデルを提案する。
本モデルでは,正規化されたポーズ非依存空間に部分的潜在性出現ベクトルをエンコードし,異なるポーズに誘導し,様々な姿勢で身体や衣服の外観を保っている。
論文 参考訳(メタデータ) (2021-03-11T19:00:38Z) - PISE: Person Image Synthesis and Editing with Decoupled GAN [64.70360318367943]
人像合成と編集のための新しい二段階生成モデルであるPISEを提案する。
ヒトのポーズ伝達では,まず対象のポーズに合わせた人間のパーシングマップを合成し,衣服の形状を表現する。
衣服の形状とスタイルを分離するため,地域ごとの符号化と正規化を共同で提案する。
論文 参考訳(メタデータ) (2021-03-06T04:32:06Z) - PoNA: Pose-guided Non-local Attention for Human Pose Transfer [105.14398322129024]
本稿では, 簡易ブロックを用いたGAN(Generative Adversarial Network)を用いた新しいポーズ転送手法を提案する。
我々のモデルはより鮮明でよりリアルな画像を生成するが、パラメータは少なく、速度も速い。
論文 参考訳(メタデータ) (2020-12-13T12:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。