論文の概要: Pose Guided Multi-person Image Generation From Text
- arxiv url: http://arxiv.org/abs/2203.04907v1
- Date: Wed, 9 Mar 2022 17:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 14:00:46.740405
- Title: Pose Guided Multi-person Image Generation From Text
- Title(参考訳): テキストからのポーズ誘導多人数画像生成
- Authors: Soon Yau Cheong, Armin Mustafa, Andrew Gilbert
- Abstract要約: 既存の手法は、高忠実度フルボディ画像、特に複数の人物を作成するのに苦労している。
本稿では,追加入力制約としてポーズを用いたポーズ誘導型テキスト・ツー・イメージモデルを提案する。
Deepfashionデータセットに結果を示し、新しい複数人Deepfashionデータセットを作成し、このアプローチのマルチ能力を実証する。
- 参考スコア(独自算出の注目度): 15.15576618501609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have recently been shown to generate high quality images from
texts. However, existing methods struggle to create high fidelity full-body
images, especially multiple people. A person's pose has a high degree of
freedom that is difficult to describe using words only; this creates errors in
the generated image, such as incorrect body proportions and pose. We propose a
pose-guided text-to-image model, using pose as an additional input constraint.
Using the proposed Keypoint Pose Encoding (KPE) to encode human pose into low
dimensional representation, our model can generate novel multi-person images
accurately representing the pose and text descriptions provided, with minimal
errors. We demonstrate that KPE is invariant to changes in the target image
domain and image resolution; we show results on the Deepfashion dataset and
create a new multi-person Deepfashion dataset to demonstrate the
multi-capabilities of our approach.
- Abstract(参考訳): トランスフォーマーは最近、テキストから高品質の画像を生成することが示されている。
しかし、既存の手法は、高忠実度フルボディ画像、特に複数の人物を作成するのに苦労している。
人のポーズは、単語のみを使用して記述することが難しい高い自由度を持ち、これは、誤った身体比例やポーズのような生成された画像に誤りを生じさせる。
ポーズを付加的な入力制約として用いるポーズ誘導テキスト対画像モデルを提案する。
提案したキーポイント・ポース・エンコーディング(KPE)を用いて、人間のポーズを低次元表現に符号化し、提案したポーズとテキスト記述を精度良く表現し、最小限の誤差で生成することができる。
我々は,kpe が対象画像領域と画像解像度の変化に不変であることを示し,deepfashion データセットに結果を示し,多人数の deepfashion データセットを作成し,このアプローチの多機能性を示す。
関連論文リスト
- PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文 参考訳(メタデータ) (2024-09-10T14:09:39Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Text-Conditional Contextualized Avatars For Zero-Shot Personalization [47.85747039373798]
本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。
私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターのトレーニングは一切必要ありません。
大規模な画像データセットを利用して人間の3Dポーズパラメータを学習する方法を初めて示す。
論文 参考訳(メタデータ) (2023-04-14T22:00:44Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - UMFuse: Unified Multi View Fusion for Human Editing applications [36.94334399493266]
複数のソース画像からポーズキーポイントとテクスチャを取り出すマルチビュー融合ネットワークを設計する。
提案した2つのタスク - マルチビューヒューマンリポジトリとMix&Matchヒューマンイメージ生成 - に対するネットワークの適用について述べる。
論文 参考訳(メタデータ) (2022-11-17T05:09:58Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。