論文の概要: Joker: Conditional 3D Head Synthesis with Extreme Facial Expressions
- arxiv url: http://arxiv.org/abs/2410.16395v1
- Date: Mon, 21 Oct 2024 18:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:27:42.287613
- Title: Joker: Conditional 3D Head Synthesis with Extreme Facial Expressions
- Title(参考訳): Joker: 極端顔表情を用いた条件付き3次元頭部合成
- Authors: Malte Prinzler, Egor Zakharov, Vanessa Sklyarova, Berna Kabadayi, Justus Thies,
- Abstract要約: 極端な表現を伴う3次元頭部の条件合成法であるJokerを紹介する。
3次元形態素モデル(3DMM)とテキスト入力による表現の制御を行う。
本手法は,視認性極端舌調音を初めて達成した手法である。
- 参考スコア(独自算出の注目度): 17.325604341814845
- License:
- Abstract: We introduce Joker, a new method for the conditional synthesis of 3D human heads with extreme expressions. Given a single reference image of a person, we synthesize a volumetric human head with the reference identity and a new expression. We offer control over the expression via a 3D morphable model (3DMM) and textual inputs. This multi-modal conditioning signal is essential since 3DMMs alone fail to define subtle emotional changes and extreme expressions, including those involving the mouth cavity and tongue articulation. Our method is built upon a 2D diffusion-based prior that generalizes well to out-of-domain samples, such as sculptures, heavy makeup, and paintings while achieving high levels of expressiveness. To improve view consistency, we propose a new 3D distillation technique that converts predictions of our 2D prior into a neural radiance field (NeRF). Both the 2D prior and our distillation technique produce state-of-the-art results, which are confirmed by our extensive evaluations. Also, to the best of our knowledge, our method is the first to achieve view-consistent extreme tongue articulation.
- Abstract(参考訳): 極端な表現を伴う3次元頭部の条件合成法であるJokerを紹介する。
人の単一の参照画像が与えられた場合、参照IDと新しい表現でボリューム人間の頭部を合成する。
3次元形態素モデル(3DMM)とテキスト入力による表現の制御を行う。
このマルチモーダルコンディショニングシグナルは、3DMMだけでは、口腔や舌の関節を含む、微妙な感情の変化や極端な表現を定義できないため、必須である。
本手法は, 高レベルの表現性を実現しつつ, 彫刻, ヘビーメイク, 絵画などのドメイン外のサンプルによく応用できる2次元拡散法により構築した。
視界の整合性を改善するため,我々は2次元事前の予測をニューラルラジアンス場(NeRF)に変換する新しい3次元蒸留手法を提案する。
従来の2次元蒸留技術と蒸留技術の両方で最先端の結果が得られ, 広範囲な評価で確認された。
また,我々の知識を最大限に活用するために,我々の手法は,視界に一貫性のある極端な舌の明瞭化を初めて達成するものである。
関連論文リスト
- Stable Video Portraits [18.75693015338021]
SVPは、大きな事前訓練されたテキスト・ツー・イメージ(2D)を利用した、会話顔の映像を出力する2D/3Dハイブリッド生成方式である。
出力として、3DMMに基づく制御、すなわち人固有のアバターを持つ人の時間的に滑らかな画像を生成する。
本手法は定量的に定性的に解析し,最先端のモノクラーヘッドアバター法より優れていることを示す。
論文 参考訳(メタデータ) (2024-09-26T17:26:18Z) - Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation [67.36775428466045]
2次元事前学習モデルから優れた3次元表現を学習するための幾何学ガイド自己蒸留(GGSD)を提案する。
3D表現の利点により、蒸留した3D学生モデルの性能は2D教師モデルよりも大幅に上回ることができる。
論文 参考訳(メタデータ) (2024-07-18T10:13:56Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - SemanticHuman-HD: High-Resolution Semantic Disentangled 3D Human Generation [12.063815354055052]
本稿ではセマンティックHuman-HDについて紹介する。
SemanticHuman-HDは10242ドルの解像度で3D認識画像合成を実現する最初の方法でもある。
提案手法は, 3次元衣服生成, セマンティック・アウェア画像合成, 制御可能な画像合成など, 様々な用途にエキサイティングな可能性を開く。
論文 参考訳(メタデータ) (2024-03-15T10:18:56Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z) - Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control [54.079327030892244]
Free-HeadGANは、人為的なニューラルトーキングヘッド合成システムである。
本研究では,3次元顔のランドマークが不足している顔のモデリングが,最先端の生成性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-03T16:46:08Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - 3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。
DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-02T17:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。