論文の概要: Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices?
- arxiv url: http://arxiv.org/abs/2203.09824v1
- Date: Fri, 18 Mar 2022 10:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 23:11:11.523126
- Title: Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices?
- Title(参考訳): クロスモーダル・パーセプティオンスト:顔の幾何学は音声から切り離せるか?
- Authors: Cho-Ying Wu, Chin-Cheng Hsu, Ulrich Neumann
- Abstract要約: この研究は、人間の知覚における根本的疑問を掘り下げている。
我々は,教師付き学習と教師なし学習の両方の下で,分析フレームワークであるクロスモーダル認知論を提案する。
- 参考スコア(独自算出の注目度): 16.716830359688853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work digs into a root question in human perception: can face geometry be
gleaned from one's voices? Previous works that study this question only adopt
developments in image synthesis and convert voices into face images to show
correlations, but working on the image domain unavoidably involves predicting
attributes that voices cannot hint, including facial textures, hairstyles, and
backgrounds. We instead investigate the ability to reconstruct 3D faces to
concentrate on only geometry, which is much more physiologically grounded. We
propose our analysis framework, Cross-Modal Perceptionist, under both
supervised and unsupervised learning. First, we construct a dataset,
Voxceleb-3D, which extends Voxceleb and includes paired voices and face meshes,
making supervised learning possible. Second, we use a knowledge distillation
mechanism to study whether face geometry can still be gleaned from voices
without paired voices and 3D face data under limited availability of 3D face
scans. We break down the core question into four parts and perform visual and
numerical analyses as responses to the core question. Our findings echo those
in physiology and neuroscience about the correlation between voices and facial
structures. The work provides future human-centric cross-modal learning with
explainable foundations. See our project page:
https://choyingw.github.io/works/Voice2Mesh/index.html
- Abstract(参考訳): この研究は、人間の知覚に根ざした疑問を提起している: 顔の形状は人の声から読み取れるか?
この疑問を研究する以前の研究は、画像合成の発展を取り入れ、相関関係を示すために音声を顔画像に変換するだけだが、画像領域に取り組むには、顔のテクスチャ、髪型、背景など、音声が暗示できない属性を予測することが避けられない。
代わりに、3D顔の再構築能力について検討し、より生理学的に基礎を成す幾何学のみに集中する。
我々は,教師付き学習と教師なし学習の両方の下で,分析フレームワークであるクロスモーダル認知論を提案する。
まず、Voxcelebを拡張し、ペア音声とフェイスメッシュを含むデータセットVoxceleb-3Dを構築し、教師付き学習を可能にする。
第2に, 知識蒸留機構を用いて, 3次元顔スキャンの限界条件下で, 対声と3次元顔データを用いずに, 顔形状を音声から読み取ることができるか検討する。
コア質問を4つの部分に分けて,コア質問への応答として視覚的および数値的分析を行う。
今回の発見は、音声と顔の構造の相関性に関する生理学や神経科学の知見と一致する。
この研究は、将来の人間中心のクロスモーダル学習と説明可能な基礎を提供する。
プロジェクトページ: https://choyingw.github.io/works/voice2mesh/index.html
関連論文リスト
- ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - The Hidden Dance of Phonemes and Visage: Unveiling the Enigmatic Link
between Phonemes and Facial Features [27.89284938655708]
この研究は、音素と顔の特徴の巧妙なリンクを明らかにする。
生理学的観点から見ると、音声の各部分(音素)は、顔の様々な種類の気流と動きに対応している。
その結果, 子音, 特に発声音と比較して, AMは母音からより予測可能であることが示唆された。
論文 参考訳(メタデータ) (2023-07-26T04:08:12Z) - Rethinking Voice-Face Correlation: A Geometry View [34.94679112707095]
音声から予測可能な顔AMを識別し,それを用いて3次元顔再構成を誘導する音声人文計測(AM)-顔パラダイムを提案する。
鼻腔や頭蓋骨などの顔面形態の音声と特定の部位の間に有意な相関関係が認められた。
論文 参考訳(メタデータ) (2023-07-26T04:03:10Z) - EgoBody: Human Body Shape, Motion and Social Interactions from
Head-Mounted Devices [76.50816193153098]
EgoBodyは複雑な3Dシーンにおけるソーシャルインタラクションのための新しい大規模データセットである。
私たちはMicrosoft HoloLens2ヘッドセットを使って、RGB、奥行き、視線、頭と手のトラッキングなど、リッチなエゴセントリックなデータストリームを記録しています。
正確な3Dグラウンドトルースを得るため、マルチKinectリグでヘッドセットを校正し、多視点RGB-Dフレームに表現力のあるSMPL-Xボディーメッシュを適合させる。
論文 参考訳(メタデータ) (2021-12-14T18:41:28Z) - Controlled AutoEncoders to Generate Faces from Voices [30.062970046955577]
学習された音声と顔の相関によって暗黙的に顔の特徴が導かれるように、所定の声に反応して対象の顔を変化させる枠組みを提案する。
我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。
論文 参考訳(メタデータ) (2021-07-16T16:04:29Z) - 3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head [13.305263646852087]
3D-TalkEmoは、様々な感情を持つ3Dトークヘッドアニメーションを生成するディープニューラルネットワークです。
私たちはまた、オーディオとビデオの同期、豊富なコーパス、異なる人のさまざまな感情状態を含む大きな3dデータセットも作成します。
論文 参考訳(メタデータ) (2021-04-25T02:48:19Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Voice2Mesh: Cross-Modal 3D Face Model Generation from Voices [18.600534152951926]
本研究は,3次元顔モデルが話者の音声入力からのみ学習できるかどうかの分析に焦点をあてる。
教師なし学習フレームワークと教師なし学習フレームワークの両方を提案する。
特に,音声対3次元の直接データセットが存在しない場合,教師なし学習がいかに可能かを示す。
論文 参考訳(メタデータ) (2021-04-21T01:14:50Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Deep 3D Portrait from a Single Image [54.634207317528364]
1枚の肖像画から人間の頭部の3次元形状を復元するための学習に基づくアプローチを提案する。
顔画像から3次元頭部再構成を学習するための2段階の幾何学的学習手法を提案する。
提案手法の精度を3次元画像と2次元画像のポーズ操作の両方で評価した。
論文 参考訳(メタデータ) (2020-04-24T08:55:37Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。