論文の概要: From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation
- arxiv url: http://arxiv.org/abs/2404.15267v1
- Date: Tue, 23 Apr 2024 17:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:03:00.245452
- Title: From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation
- Title(参考訳): 部品から全体へ:制御可能な人体画像生成のための統一参照フレームワーク
- Authors: Zehuan Huang, Hongxing Fan, Lipeng Wang, Lu Sheng,
- Abstract要約: Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
- 参考スコア(独自算出の注目度): 19.096741614175524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in controllable human image generation have led to zero-shot generation using structural signals (e.g., pose, depth) or facial appearance. Yet, generating human images conditioned on multiple parts of human appearance remains challenging. Addressing this, we introduce Parts2Whole, a novel framework designed for generating customized portraits from multiple reference images, including pose images and various aspects of human appearance. To achieve this, we first develop a semantic-aware appearance encoder to retain details of different human parts, which processes each image based on its textual label to a series of multi-scale feature maps rather than one image token, preserving the image dimension. Second, our framework supports multi-image conditioned generation through a shared self-attention mechanism that operates across reference and target features during the diffusion process. We enhance the vanilla attention mechanism by incorporating mask information from the reference human images, allowing for the precise selection of any part. Extensive experiments demonstrate the superiority of our approach over existing alternatives, offering advanced capabilities for multi-part controllable human image customization. See our project page at https://huanngzh.github.io/Parts2Whole/.
- Abstract(参考訳): 制御可能な人間の画像生成の最近の進歩は、構造信号(例えば、ポーズ、深さ)や顔の外観を使ったゼロショット生成につながっている。
しかし、人間の外見の複数の部分に条件付けされた人間の画像を生成することは、依然として困難である。
そこで我々は,複数の参照画像からカスタマイズされた肖像画を生成するための新しいフレームワークParts2Wholeを紹介した。
そこで本研究では,まず,各画像のテキストラベルに基づいて,各画像を1つの画像トークンではなく,一連のマルチスケール特徴マップに処理し,画像次元を保存する,意味認識型外観エンコーダを開発した。
第2に,本フレームワークは,拡散過程における参照・対象特徴間の共有自己アテンション機構により,マルチイメージ条件付き生成をサポートする。
我々は、基準画像からマスク情報を取り込むことで、バニラ注意機構を強化し、任意の部分の正確な選択を可能にする。
大規模な実験により、既存の代替手段よりもアプローチが優れていることが示され、多部制御可能な人間の画像のカスタマイズのための高度な能力が提供される。
プロジェクトページはhttps://huanngzh.github.io/Parts2Whole/にある。
関連論文リスト
- Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - UMFuse: Unified Multi View Fusion for Human Editing applications [36.94334399493266]
複数のソース画像からポーズキーポイントとテクスチャを取り出すマルチビュー融合ネットワークを設計する。
提案した2つのタスク - マルチビューヒューマンリポジトリとMix&Matchヒューマンイメージ生成 - に対するネットワークの適用について述べる。
論文 参考訳(メタデータ) (2022-11-17T05:09:58Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - HumanGAN: A Generative Model of Humans Images [78.6284090004218]
本研究では,ポーズ,局所的な身体部分の外観,衣料品スタイルを制御できる服装者の画像生成モデルを提案する。
本モデルでは,正規化されたポーズ非依存空間に部分的潜在性出現ベクトルをエンコードし,異なるポーズに誘導し,様々な姿勢で身体や衣服の外観を保っている。
論文 参考訳(メタデータ) (2021-03-11T19:00:38Z) - MUST-GAN: Multi-level Statistics Transfer for Self-driven Person Image
Generation [13.06676286691587]
姿勢誘導型人物画像生成は通常、トレーニングを監督するためにペアのソースターゲット画像を使用する。
本稿では,人物画像から多段階の外観特徴を分離・伝達する,新しい多段階統計伝達モデルを提案する。
提案手法は,人物の外観を柔軟に操作し,ポーズ・トランスファーや衣服スタイル・トランスファー・タスクを行う。
論文 参考訳(メタデータ) (2020-11-18T04:38:48Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。