論文の概要: CapHuman: Capture Your Moments in Parallel Universes
- arxiv url: http://arxiv.org/abs/2402.00627v3
- Date: Fri, 17 May 2024 14:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 20:13:41.686789
- Title: CapHuman: Capture Your Moments in Parallel Universes
- Title(参考訳): CapHuman:パラレル宇宙でモメンタリーを撮る
- Authors: Chao Liang, Fan Ma, Linchao Zhu, Yingying Deng, Yi Yang,
- Abstract要約: CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
- 参考スコア(独自算出の注目度): 60.06408546134581
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We concentrate on a novel human-centric image synthesis task, that is, given only one reference facial photograph, it is expected to generate specific individual images with diverse head positions, poses, facial expressions, and illuminations in different contexts. To accomplish this goal, we argue that our generative model should be capable of the following favorable characteristics: (1) a strong visual and semantic understanding of our world and human society for basic object and human image generation. (2) generalizable identity preservation ability. (3) flexible and fine-grained head control. Recently, large pre-trained text-to-image diffusion models have shown remarkable results, serving as a powerful generative foundation. As a basis, we aim to unleash the above two capabilities of the pre-trained model. In this work, we present a new framework named CapHuman. We embrace the "encode then learn to align" paradigm, which enables generalizable identity preservation for new individuals without cumbersome tuning at inference. CapHuman encodes identity features and then learns to align them into the latent space. Moreover, we introduce the 3D facial prior to equip our model with control over the human head in a flexible and 3D-consistent manner. Extensive qualitative and quantitative analyses demonstrate our CapHuman can produce well-identity-preserved, photo-realistic, and high-fidelity portraits with content-rich representations and various head renditions, superior to established baselines. Code and checkpoint will be released at https://github.com/VamosC/CapHuman.
- Abstract(参考訳): 我々は,1つの参照顔写真のみを前提として,多様な頭部位置,ポーズ,表情,照明の異なる個々の画像を生成することを期待する,新しい人中心画像合成タスクに焦点をあてる。
この目的を達成するために、我々は、生成モデルは、(1)基本対象と人体画像生成のための、世界と人間社会の視覚的、意味的な理解の強い特徴を持つべきであると論じる。
2) 汎用的なアイデンティティ保存能力。
(3) 柔軟できめ細かい頭部制御。
近年、大規模な事前学習による画像拡散モデルが顕著な成果を示し、強力な生成基盤として機能している。
基礎として、事前訓練されたモデルの上記の2つの能力を解き放つことを目的としている。
本稿では,CapHumanという新しいフレームワークを提案する。
推論における煩雑なチューニングを伴わずに、新しい個人に対する汎用的なアイデンティティ保存を可能にする「エンコード・アラーム・アライメント」パラダイムを取り入れている。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
さらに,モデルに人間の頭部を柔軟かつ3D一貫性のある方法で制御させる前に,この3D顔を導入する。
広汎な質的および定量的分析により、CapHumanは、確立されたベースラインよりも優れた、コンテンツに富んだ表現と様々なヘッドリディングを備えた、身元よく保存された、フォトリアリスティックで、高忠実な肖像画を作成できることを示した。
コードとチェックポイントはhttps://github.com/VamosC/CapHuman.comで公開される。
関連論文リスト
- HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - XAGen: 3D Expressive Human Avatars Generation [76.69560679209171]
XAGenは人体、顔、手を表現的に制御できる人間のアバターのための最初の3D生成モデルである。
身体, 顔, 手の合成を両立させる多部レンダリング手法を提案する。
実験によると、XAGenは現実主義、多様性、表現力のある制御能力の点で最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-11-22T18:30:42Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - VariTex: Variational Neural Face Textures [0.0]
VariTexは、ニューラルフェイステクスチャの変動潜在特徴空間を学習する手法である。
頭部の完全な画像を生成するために,毛髪などの正確な詳細情報を生成する付加デコーダを提案する。
その結果、顔のポーズ、顔の形状、表情の微粒度を制御できる新しいアイデンティティの幾何学的に一貫性のある画像を生成することができる。
論文 参考訳(メタデータ) (2021-04-13T07:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。