論文の概要: Voice2Mesh: Cross-Modal 3D Face Model Generation from Voices
- arxiv url: http://arxiv.org/abs/2104.10299v1
- Date: Wed, 21 Apr 2021 01:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:29:57.605243
- Title: Voice2Mesh: Cross-Modal 3D Face Model Generation from Voices
- Title(参考訳): Voice2Mesh: 音声から生成するクロスプラットフォームの3D顔モデル
- Authors: Cho-Ying Wu, Ke Xu, Chin-Cheng Hsu, Ulrich Neumann
- Abstract要約: 本研究は,3次元顔モデルが話者の音声入力からのみ学習できるかどうかの分析に焦点をあてる。
教師なし学習フレームワークと教師なし学習フレームワークの両方を提案する。
特に,音声対3次元の直接データセットが存在しない場合,教師なし学習がいかに可能かを示す。
- 参考スコア(独自算出の注目度): 18.600534152951926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on the analysis that whether 3D face models can be learned
from only the speech inputs of speakers. Previous works for cross-modal face
synthesis study image generation from voices. However, image synthesis includes
variations such as hairstyles, backgrounds, and facial textures, that are
arguably irrelevant to voice or without direct studies to show correlations. We
instead investigate the ability to reconstruct 3D faces to concentrate on only
geometry, which is more physiologically grounded. We propose both the
supervised learning and unsupervised learning frameworks. Especially we
demonstrate how unsupervised learning is possible in the absence of a direct
voice-to-3D-face dataset under limited availability of 3D face scans when the
model is equipped with knowledge distillation. To evaluate the performance, we
also propose several metrics to measure the geometric fitness of two 3D faces
based on points, lines, and regions. We find that 3D face shapes can be
reconstructed from voices. Experimental results suggest that 3D faces can be
reconstructed from voices, and our method can improve the performance over the
baseline. The best performance gains (15% - 20%) on ear-to-ear distance ratio
metric (ER) coincides with the intuition that one can roughly envision whether
a speaker's face is overall wider or thinner only from a person's voice. See
our project page for codes and data.
- Abstract(参考訳): 本研究は,3次元顔モデルが話者の音声入力からのみ学習できるかどうかの分析に焦点をあてる。
クロスモーダル顔合成のための先行研究 : 音声からの画像生成
しかし、画像合成には髪型、背景、顔のテクスチャなどのバリエーションが含まれており、音声とは無関係であり、相関を示す直接的な研究も含まない。
代わりに、3d顔の再構築能力を調べ、より生理学的に接地された幾何学だけに集中する。
教師なし学習フレームワークと教師なし学習フレームワークの両方を提案する。
特に,モデルに知識蒸留が組み込まれている場合,3次元顔スキャンで直接音声から3次元顔へのデータセットが存在しない場合に,教師なし学習がいかに可能かを示す。
また,その性能を評価するために,点,線,領域に基づいて2つの3次元顔の幾何適合度を測定する指標を提案する。
3d顔の形状は音声から再構築できることがわかった。
実験結果から,音声から3次元顔の復元が可能であり,ベースライン性能の向上が期待できることがわかった。
耳と耳の距離比測定(ER)における最高の性能向上(15%から20%)は、話者の顔が全体より広いか、あるいは声のみより薄いか、大まかに想像できるという直感と一致する。
コードとデータのプロジェクトページを参照してください。
関連論文リスト
- NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - Learn2Talk: 3D Talking Face Learns from 2D Talking Face [15.99315075587735]
本稿では,より優れた3次元音声対話ネットワークを構築することができるLearn2Talkという学習フレームワークを提案する。
オーディオビデオ同期ネットワークにインスパイアされた3Dシンク・リップエキスパートモデルが,リップシンクの追求のために考案された。
2次元対話顔法から選択された教師モデルを用いて、音声から3次元動きの回帰ネットワークのトレーニングを指導する。
論文 参考訳(メタデータ) (2024-04-19T13:45:14Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Rethinking Voice-Face Correlation: A Geometry View [34.94679112707095]
音声から予測可能な顔AMを識別し,それを用いて3次元顔再構成を誘導する音声人文計測(AM)-顔パラダイムを提案する。
鼻腔や頭蓋骨などの顔面形態の音声と特定の部位の間に有意な相関関係が認められた。
論文 参考訳(メタデータ) (2023-07-26T04:03:10Z) - Generating 2D and 3D Master Faces for Dictionary Attacks with a
Network-Assisted Latent Space Evolution [68.8204255655161]
マスターフェイス(英: master face)とは、人口の比率の高い顔認証をパスする顔画像である。
2次元および3次元の顔認証モデルに対して,これらの顔の最適化を行う。
3Dでは,2次元スタイルGAN2ジェネレータを用いて顔を生成し,深部3次元顔再構成ネットワークを用いて3次元構造を予測する。
論文 参考訳(メタデータ) (2022-11-25T09:15:38Z) - Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis [90.43371339871105]
音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
論文 参考訳(メタデータ) (2022-07-24T16:46:03Z) - Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices? [16.716830359688853]
この研究は、人間の知覚における根本的疑問を掘り下げている。
我々は,教師付き学習と教師なし学習の両方の下で,分析フレームワークであるクロスモーダル認知論を提案する。
論文 参考訳(メタデータ) (2022-03-18T10:03:07Z) - 3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head [13.305263646852087]
3D-TalkEmoは、様々な感情を持つ3Dトークヘッドアニメーションを生成するディープニューラルネットワークです。
私たちはまた、オーディオとビデオの同期、豊富なコーパス、異なる人のさまざまな感情状態を含む大きな3dデータセットも作成します。
論文 参考訳(メタデータ) (2021-04-25T02:48:19Z) - Deep 3D Portrait from a Single Image [54.634207317528364]
1枚の肖像画から人間の頭部の3次元形状を復元するための学習に基づくアプローチを提案する。
顔画像から3次元頭部再構成を学習するための2段階の幾何学的学習手法を提案する。
提案手法の精度を3次元画像と2次元画像のポーズ操作の両方で評価した。
論文 参考訳(メタデータ) (2020-04-24T08:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。