論文の概要: Facetron: Multi-speaker Face-to-Speech Model based on Cross-modal Latent
Representations
- arxiv url: http://arxiv.org/abs/2107.12003v1
- Date: Mon, 26 Jul 2021 07:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:14:14.069803
- Title: Facetron: Multi-speaker Face-to-Speech Model based on Cross-modal Latent
Representations
- Title(参考訳): Facetron:クロスモーダル潜在表現に基づく複数話者対音声モデル
- Authors: Se-Yun Um, Jihyun Kim, Jihyun Lee, Sangshin Oh, Kyungguen Byun, and
Hong-Goo Kang
- Abstract要約: 個人の顔の映像を条件付けして、話者固有の音声波形を合成する効果的な方法を提案する。
唇読解モデルを用いて唇の動きから言語的特徴を抽出し,顔画像から話者特性を予測する。
本稿では,従来の手法よりも客観評価と主観評価の両面において,提案手法の優位性を示す。
- 参考スコア(独自算出の注目度): 22.14238843571225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an effective method to synthesize speaker-specific
speech waveforms by conditioning on videos of an individual's face. Using a
generative adversarial network (GAN) with linguistic and speaker characteristic
features as auxiliary conditions, our method directly converts face images into
speech waveforms under an end-to-end training framework. The linguistic
features are extracted from lip movements using a lip-reading model, and the
speaker characteristic features are predicted from face images using
cross-modal learning with a pre-trained acoustic model. Since these two
features are uncorrelated and controlled independently, we can flexibly
synthesize speech waveforms whose speaker characteristics vary depending on the
input face images. Therefore, our method can be regarded as a multi-speaker
face-to-speech waveform model. We show the superiority of our proposed model
over conventional methods in terms of both objective and subjective evaluation
results. Specifically, we evaluate the performances of the linguistic feature
and the speaker characteristic generation modules by measuring the accuracy of
automatic speech recognition and automatic speaker/gender recognition tasks,
respectively. We also evaluate the naturalness of the synthesized speech
waveforms using a mean opinion score (MOS) test.
- Abstract(参考訳): 本稿では,個人の顔の映像を条件付けして,話者固有の音声波形を合成する効果的な手法を提案する。
言語特性と話者特性を付加したGAN(Generative Adversarial Network)を補助条件として,エンドツーエンドの学習枠組みの下で直接顔画像から音声波形に変換する。
唇読解モデルを用いて唇の動きから言語的特徴を抽出し,事前学習された音響モデルを用いたクロスモーダル学習を用いて顔画像から話者特性を予測する。
これら2つの特徴は無相関であり、独立して制御されるため、入力された顔画像によって話者特性が異なる音声波形を柔軟に合成することができる。
したがって,本手法は複数話者対音声波形モデルと見なすことができる。
提案手法は客観的評価と主観評価の両面で従来の手法よりも優れていることを示す。
具体的には,自動音声認識と自動話者/話者認識タスクの精度を測定し,言語特徴と話者特性生成モジュールの性能評価を行った。
また, 平均オピニオンスコア(mos)テストを用いて合成音声波形の自然性を評価する。
関連論文リスト
- We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings [47.2515056854372]
音声合成においては、人間の声に含まれる豊かな感情と韻律変化のモデリングが自然音声の合成に不可欠である。
本稿では,従来の組込み方式として単一クラス中心ではなく,複数クラス中心を用いた話者分類訓練を行う新しい組込みネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T06:54:24Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - ELF: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis [5.824018496599849]
多数の話者をモデル化する新しい手法を提案する。
訓練されたマルチスピーカーモデルのように、話者の全体的な特徴を詳細に表現することができる。
論文 参考訳(メタデータ) (2023-11-20T13:13:24Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。