論文の概要: Controlled AutoEncoders to Generate Faces from Voices
- arxiv url: http://arxiv.org/abs/2107.07988v1
- Date: Fri, 16 Jul 2021 16:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:42:51.508220
- Title: Controlled AutoEncoders to Generate Faces from Voices
- Title(参考訳): 音声から顔を生成する制御オートエンコーダ
- Authors: Hao Liang, Lulan Yu, Guikang Xu, Bhiksha Raj, Rita Singh
- Abstract要約: 学習された音声と顔の相関によって暗黙的に顔の特徴が導かれるように、所定の声に反応して対象の顔を変化させる枠組みを提案する。
我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。
- 参考スコア(独自算出の注目度): 30.062970046955577
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multiple studies in the past have shown that there is a strong correlation
between human vocal characteristics and facial features. However, existing
approaches generate faces simply from voice, without exploring the set of
features that contribute to these observed correlations. A computational
methodology to explore this can be devised by rephrasing the question to: "how
much would a target face have to change in order to be perceived as the
originator of a source voice?" With this in perspective, we propose a framework
to morph a target face in response to a given voice in a way that facial
features are implicitly guided by learned voice-face correlation in this paper.
Our framework includes a guided autoencoder that converts one face to another,
controlled by a unique model-conditioning component called a gating controller
which modifies the reconstructed face based on input voice recordings. We
evaluate the framework on VoxCelab and VGGFace datasets through human subjects
and face retrieval. Various experiments demonstrate the effectiveness of our
proposed model.
- Abstract(参考訳): 過去の複数の研究では、人間の声の特徴と顔の特徴の間に強い相関関係があることが示されている。
しかし、既存のアプローチは、これらの相関に寄与する特徴の集合を探索することなく、単に音声から顔を生成する。
これを研究するための計算手法は、「原声の発声者として認識されるためには、対象の顔がどの程度変化する必要があるか?」という問いを言い換えることで考案できる。
本稿では,この観点から,学習した音声と顔の相関によって顔の特徴が暗黙的に導かれるように,与えられた音声に応答して対象の顔を変化させる枠組みを提案する。
我々のフレームワークは、入力された音声記録に基づいて再構成された顔を変更するゲーティングコントローラと呼ばれるユニークなモデル条件コンポーネントによって制御される、ある顔を別の顔に変換するガイド付きオートエンコーダを含む。
我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。
提案モデルの有効性を示す様々な実験を行った。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - Hear Your Face: Face-based voice conversion with F0 estimation [18.66502308601214]
本稿では,人物の顔画像からのみ派生した,顔に基づく音声変換フレームワークを提案する。
本フレームワークは, 優れた音声認識品質と, 顔の特徴と音声特性の整合性を示す。
論文 参考訳(メタデータ) (2024-08-19T08:47:03Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice
Alignment [33.55724004790504]
本稿では,顔画像に基づくゼロショット音声変換(ゼロショットFaceVC)を提案する。
この課題に対処するために,フェースボイスメモリを用いたゼロショットFaceVC法を提案する。
ゼロショットFaceVCタスクにおける提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-09-18T04:08:02Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。