論文の概要: Rethinking Voice-Face Correlation: A Geometry View
- arxiv url: http://arxiv.org/abs/2307.13948v1
- Date: Wed, 26 Jul 2023 04:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 13:39:23.995925
- Title: Rethinking Voice-Face Correlation: A Geometry View
- Title(参考訳): 音声と顔の相関を再考する: 幾何学的視点
- Authors: Xiang Li, Yandong Wen, Muqiao Yang, Jinglu Wang, Rita Singh, Bhiksha
Raj
- Abstract要約: 音声から予測可能な顔AMを識別し,それを用いて3次元顔再構成を誘導する音声人文計測(AM)-顔パラダイムを提案する。
鼻腔や頭蓋骨などの顔面形態の音声と特定の部位の間に有意な相関関係が認められた。
- 参考スコア(独自算出の注目度): 34.94679112707095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous works on voice-face matching and voice-guided face synthesis
demonstrate strong correlations between voice and face, but mainly rely on
coarse semantic cues such as gender, age, and emotion. In this paper, we aim to
investigate the capability of reconstructing the 3D facial shape from voice
from a geometry perspective without any semantic information. We propose a
voice-anthropometric measurement (AM)-face paradigm, which identifies
predictable facial AMs from the voice and uses them to guide 3D face
reconstruction. By leveraging AMs as a proxy to link the voice and face
geometry, we can eliminate the influence of unpredictable AMs and make the face
geometry tractable. Our approach is evaluated on our proposed dataset with
ground-truth 3D face scans and corresponding voice recordings, and we find
significant correlations between voice and specific parts of the face geometry,
such as the nasal cavity and cranium. Our work offers a new perspective on
voice-face correlation and can serve as a good empirical study for
anthropometry science.
- Abstract(参考訳): 音声のマッチングと音声誘導顔合成に関するこれまでの研究は、声と顔の間に強い相関関係を示すが、主に性別、年齢、感情などの粗い意味的手がかりに依存する。
本稿では,音声から3次元顔形状を再構成する能力について,意味情報を用いずに幾何学的視点から検討する。
音声から予測可能な顔AMを識別し,それを用いて3次元顔再構成を誘導する音声人文計測(AM)-顔パラダイムを提案する。
音声と顔の形状をリンクするプロキシとしてAMを活用することで、予測不可能なAMの影響を排除し、顔の形状を抽出できるようにする。
提案手法は,3次元顔スキャンと対応する音声記録を用いて,提案するデータセット上で評価し,鼻腔や頭蓋などの顔形状の特定の部分と音声との有意な相関を見出した。
本研究は, 音声と顔の相関に関する新しい視点を提供し, 人類計測科学の優れた実証研究として機能する。
関連論文リスト
- GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Let's Get the FACS Straight -- Reconstructing Obstructed Facial Features [5.7843271011811614]
本稿では,障害のある顔の部位を再構築し,繰り返し微調整を行う作業を避けることを提案する。
CycleGANアーキテクチャを使用することで、マッチしたペアの要求を解消できる。
このスコアは、センサーを妨害することなく、ビデオに似ています。
論文 参考訳(メタデータ) (2023-11-09T09:09:20Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - The Hidden Dance of Phonemes and Visage: Unveiling the Enigmatic Link
between Phonemes and Facial Features [27.89284938655708]
この研究は、音素と顔の特徴の巧妙なリンクを明らかにする。
生理学的観点から見ると、音声の各部分(音素)は、顔の様々な種類の気流と動きに対応している。
その結果, 子音, 特に発声音と比較して, AMは母音からより予測可能であることが示唆された。
論文 参考訳(メタデータ) (2023-07-26T04:08:12Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices? [16.716830359688853]
この研究は、人間の知覚における根本的疑問を掘り下げている。
我々は,教師付き学習と教師なし学習の両方の下で,分析フレームワークであるクロスモーダル認知論を提案する。
論文 参考訳(メタデータ) (2022-03-18T10:03:07Z) - Controlled AutoEncoders to Generate Faces from Voices [30.062970046955577]
学習された音声と顔の相関によって暗黙的に顔の特徴が導かれるように、所定の声に反応して対象の顔を変化させる枠組みを提案する。
我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。
論文 参考訳(メタデータ) (2021-07-16T16:04:29Z) - HifiFace: 3D Shape and Semantic Prior Guided High Fidelity Face Swapping [116.1022638063613]
本研究では,光源面の顔形状を保存し,写真リアルな結果を生成できるHifiFaceを提案する。
本稿では,エンコーダとデコーダの組み合わせを最適化するSemantic Facial Fusionモジュールを提案する。
論文 参考訳(メタデータ) (2021-06-18T07:39:09Z) - Voice2Mesh: Cross-Modal 3D Face Model Generation from Voices [18.600534152951926]
本研究は,3次元顔モデルが話者の音声入力からのみ学習できるかどうかの分析に焦点をあてる。
教師なし学習フレームワークと教師なし学習フレームワークの両方を提案する。
特に,音声対3次元の直接データセットが存在しない場合,教師なし学習がいかに可能かを示す。
論文 参考訳(メタデータ) (2021-04-21T01:14:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。