論文の概要: From Inference to Generation: End-to-end Fully Self-supervised
Generation of Human Face from Speech
- arxiv url: http://arxiv.org/abs/2004.05830v1
- Date: Mon, 13 Apr 2020 09:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:53:13.996151
- Title: From Inference to Generation: End-to-end Fully Self-supervised
Generation of Human Face from Speech
- Title(参考訳): 推論から生成へ:音声からの人間の顔の完全な自己教師的生成
- Authors: Hyeong-Seok Choi, Changdae Park, Kyogu Lee
- Abstract要約: 推論段階と生成段階を結びつけるマルチモーダル学習フレームワークを提案する。
提案手法は,GANs手法の最近の発展を生かし,音声波形から直接人間の顔を生成する。
実験の結果,提案ネットワークは人間の顔と音声の関係に合致するだけでなく,その音声に条件付けされた高品質な顔サンプルを生成することができることがわかった。
- 参考スコア(独自算出の注目度): 20.41722156886205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work seeks the possibility of generating the human face from voice
solely based on the audio-visual data without any human-labeled annotations. To
this end, we propose a multi-modal learning framework that links the inference
stage and generation stage. First, the inference networks are trained to match
the speaker identity between the two different modalities. Then the trained
inference networks cooperate with the generation network by giving conditional
information about the voice. The proposed method exploits the recent
development of GANs techniques and generates the human face directly from the
speech waveform making our system fully end-to-end. We analyze the extent to
which the network can naturally disentangle two latent factors that contribute
to the generation of a face image - one that comes directly from a speech
signal and the other that is not related to it - and explore whether the
network can learn to generate natural human face image distribution by modeling
these factors. Experimental results show that the proposed network can not only
match the relationship between the human face and speech, but can also generate
the high-quality human face sample conditioned on its speech. Finally, the
correlation between the generated face and the corresponding speech is
quantitatively measured to analyze the relationship between the two modalities.
- Abstract(参考訳): 本研究は,人間ラベル付きアノテーションを使わずに,音声・視覚データのみに基づいて音声から人間の顔を生成する可能性を探る。
そこで本研究では,推論段階と生成段階をリンクするマルチモーダル学習フレームワークを提案する。
まず、推論ネットワークは、2つの異なるモード間の話者同一性に適合するように訓練される。
そして、訓練された推論ネットワークは、音声に関する条件情報を与えることで、生成ネットワークと連携する。
提案手法は,最新のGAN技術を活用し,音声波形から直接人間の顔を生成し,システムを完全にエンドツーエンドにする。
顔画像の生成に寄与する2つの潜在要因(音声信号から直接生じる要因とそれと無関係な要因)をネットワークが自然に分離できる程度を分析し、これらの因子をモデル化することで、ネットワークが自然な顔画像の分布を学習できるかどうかを考察する。
実験の結果,提案ネットワークは,人間の顔と音声の関係にマッチするだけでなく,その音声を条件とした高品質な顔サンプルを生成できることがわかった。
最後に、生成した顔と対応する音声との相関を定量的に測定し、2つのモーダリティの関係を分析する。
関連論文リスト
- RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents [5.244401764969407]
仮想エージェントや社会ロボットという形で、身体エージェントが急速に普及している。
音声テキストと音声の発話から関節角度の連続を生成できる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-17T18:46:25Z) - Articulation GAN: Unsupervised modeling of articulatory learning [6.118463549086599]
本稿では,Articulatory Generatorをジェネレーティブアドリアネットワークパラダイムに導入する。
別個の事前学習された物理モデルは、生成されたEMA表現を音声波形に変換する。
生成したEMA表現の調音解析は、音声生成中に人間の調音を忠実に追従する方法で、ネットワークが調音器を制御することを学習していることを示唆している。
論文 参考訳(メタデータ) (2022-10-27T05:07:04Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Facetron: Multi-speaker Face-to-Speech Model based on Cross-modal Latent
Representations [22.14238843571225]
個人の顔の映像を条件付けして、話者固有の音声波形を合成する効果的な方法を提案する。
唇読解モデルを用いて唇の動きから言語的特徴を抽出し,顔画像から話者特性を予測する。
本稿では,従来の手法よりも客観評価と主観評価の両面において,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-26T07:36:02Z) - Controlled AutoEncoders to Generate Faces from Voices [30.062970046955577]
学習された音声と顔の相関によって暗黙的に顔の特徴が導かれるように、所定の声に反応して対象の顔を変化させる枠組みを提案する。
我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。
論文 参考訳(メタデータ) (2021-07-16T16:04:29Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。