論文の概要: Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams
- arxiv url: http://arxiv.org/abs/2006.11610v1
- Date: Sat, 20 Jun 2020 16:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 23:02:37.304704
- Title: Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams
- Title(参考訳): 音声後表を用いた話者独立・多言語/多言語音声駆動音声ヘッド生成
- Authors: Huirong Huang, Zhiyong Wu, Shiyin Kang, Dongyang Dai, Jia Jia,
Tianxiao Fu, Deyi Tuo, Guangzhi Lei, Peng Liu, Dan Su, Dong Yu, Helen Meng
- Abstract要約: そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
- 参考スコア(独自算出の注目度): 58.617181880383605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating 3D speech-driven talking head has received more and more attention
in recent years. Recent approaches mainly have following limitations: 1) most
speaker-independent methods need handcrafted features that are time-consuming
to design or unreliable; 2) there is no convincing method to support
multilingual or mixlingual speech as input. In this work, we propose a novel
approach using phonetic posteriorgrams (PPG). In this way, our method doesn't
need hand-crafted features and is more robust to noise compared to recent
approaches. Furthermore, our method can support multilingual speech as input by
building a universal phoneme space. As far as we know, our model is the first
to support multilingual/mixlingual speech as input with convincing results.
Objective and subjective experiments have shown that our model can generate
high quality animations given speech from unseen languages or speakers and be
robust to noise.
- Abstract(参考訳): 近年,3次元音声による発話ヘッドの生成が注目されている。
最近のアプローチは主に以下の制限がある。
1) 話者非依存の方法の多くは,設計に時間を要する,又は信頼性の低い手作りの機能を必要とする。
2)多言語または混合言語を入力としてサポートする説得力のある方法は存在しない。
そこで本研究では,ppg(phonetic posteriorgrams)を用いた新しいアプローチを提案する。
このように、我々の手法は手作りの機能は必要とせず、近年の手法に比べてノイズに強い。
さらに,汎用音素空間を構築することで,多言語音声を入力としてサポートすることができる。
我々が知る限り、我々のモデルは、説得力のある結果の入力として、多言語/混合言語音声をサポートする最初のモデルである。
客観的・主観的実験により,非知覚言語や話者から与えられた音声から高品質なアニメーションを生成でき,雑音に対して頑健であることを示す。
関連論文リスト
- Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。