論文の概要: Controlled AutoEncoders to Generate Faces from Voices
- arxiv url: http://arxiv.org/abs/2107.07988v1
- Date: Fri, 16 Jul 2021 16:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:42:51.508220
- Title: Controlled AutoEncoders to Generate Faces from Voices
- Title(参考訳): 音声から顔を生成する制御オートエンコーダ
- Authors: Hao Liang, Lulan Yu, Guikang Xu, Bhiksha Raj, Rita Singh
- Abstract要約: 学習された音声と顔の相関によって暗黙的に顔の特徴が導かれるように、所定の声に反応して対象の顔を変化させる枠組みを提案する。
我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。
- 参考スコア(独自算出の注目度): 30.062970046955577
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multiple studies in the past have shown that there is a strong correlation
between human vocal characteristics and facial features. However, existing
approaches generate faces simply from voice, without exploring the set of
features that contribute to these observed correlations. A computational
methodology to explore this can be devised by rephrasing the question to: "how
much would a target face have to change in order to be perceived as the
originator of a source voice?" With this in perspective, we propose a framework
to morph a target face in response to a given voice in a way that facial
features are implicitly guided by learned voice-face correlation in this paper.
Our framework includes a guided autoencoder that converts one face to another,
controlled by a unique model-conditioning component called a gating controller
which modifies the reconstructed face based on input voice recordings. We
evaluate the framework on VoxCelab and VGGFace datasets through human subjects
and face retrieval. Various experiments demonstrate the effectiveness of our
proposed model.
- Abstract(参考訳): 過去の複数の研究では、人間の声の特徴と顔の特徴の間に強い相関関係があることが示されている。
しかし、既存のアプローチは、これらの相関に寄与する特徴の集合を探索することなく、単に音声から顔を生成する。
これを研究するための計算手法は、「原声の発声者として認識されるためには、対象の顔がどの程度変化する必要があるか?」という問いを言い換えることで考案できる。
本稿では,この観点から,学習した音声と顔の相関によって顔の特徴が暗黙的に導かれるように,与えられた音声に応答して対象の顔を変化させる枠組みを提案する。
我々のフレームワークは、入力された音声記録に基づいて再構成された顔を変更するゲーティングコントローラと呼ばれるユニークなモデル条件コンポーネントによって制御される、ある顔を別の顔に変換するガイド付きオートエンコーダを含む。
我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。
提案モデルの有効性を示す様々な実験を行った。
関連論文リスト
- FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces
from Disentangled Audio [47.070848508118836]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice
Alignment [33.55724004790504]
本稿では,顔画像に基づくゼロショット音声変換(ゼロショットFaceVC)を提案する。
この課題に対処するために,フェースボイスメモリを用いたゼロショットFaceVC法を提案する。
ゼロショットFaceVCタスクにおける提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-09-18T04:08:02Z) - Rethinking Voice-Face Correlation: A Geometry View [34.94679112707095]
音声から予測可能な顔AMを識別し,それを用いて3次元顔再構成を誘導する音声人文計測(AM)-顔パラダイムを提案する。
鼻腔や頭蓋骨などの顔面形態の音声と特定の部位の間に有意な相関関係が認められた。
論文 参考訳(メタデータ) (2023-07-26T04:03:10Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Facetron: Multi-speaker Face-to-Speech Model based on Cross-modal Latent
Representations [22.14238843571225]
個人の顔の映像を条件付けして、話者固有の音声波形を合成する効果的な方法を提案する。
唇読解モデルを用いて唇の動きから言語的特徴を抽出し,顔画像から話者特性を予測する。
本稿では,従来の手法よりも客観評価と主観評価の両面において,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-26T07:36:02Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。