論文の概要: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis
- arxiv url: http://arxiv.org/abs/2311.11745v1
- Date: Mon, 20 Nov 2023 13:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 18:51:24.434815
- Title: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis
- Title(参考訳): 音声合成のための話者特化音声特徴の符号化
- Authors: Jungil Kong, Junmo Lee, Jeongmin Kim, Beomjeong Kim, Jihoon Park,
Dohee Kong, Changheon Lee, Sangjin Kim
- Abstract要約: 多数の話者をモデル化する新しい手法を提案する。
訓練されたマルチスピーカーモデルのように、話者の全体的な特徴を詳細に表現することができる。
- 参考スコア(独自算出の注目度): 6.0748601738949315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a novel method for modeling numerous speakers, which
enables expressing the overall characteristics of speakers in detail like a
trained multi-speaker model without additional training on the target speaker's
dataset. Although various works with similar purposes have been actively
studied, their performance has not yet reached that of trained multi-speaker
models due to their fundamental limitations. To overcome previous limitations,
we propose effective methods for feature learning and representing target
speakers' speech characteristics by discretizing the features and conditioning
them to a speech synthesis model. Our method obtained a significantly higher
similarity mean opinion score (SMOS) in subjective similarity evaluation than
seen speakers of a best-performing multi-speaker model, even with unseen
speakers. The proposed method also outperforms a zero-shot method by
significant margins. Furthermore, our method shows remarkable performance in
generating new artificial speakers. In addition, we demonstrate that the
encoded latent features are sufficiently informative to reconstruct an original
speaker's speech completely. It implies that our method can be used as a
general methodology to encode and reconstruct speakers' characteristics in
various tasks.
- Abstract(参考訳): 本研究では,対象話者のデータセットに付加的な訓練を加えることなく,訓練されたマルチ話者モデルのように,話者の全体的な特徴を詳細に表現することのできる,多数の話者のモデリング手法を提案する。
同様の目的の様々な作品が活発に研究されているが、基本的な限界のために訓練されたマルチスピーカーモデルほどの性能には達していない。
従来の制限を克服するために,特徴を識別し,音声合成モデルに調和させることにより,対象話者の音声特性を効果的に表現する手法を提案する。
提案手法は, 主観的類似度評価において, 主観的類似度評価において, 目立たない話者であっても, 最高の多話者モデルの話者よりも有意に高い類似度平均世論スコア(SMOS)を得た。
提案手法はゼロショット法を有意なマージンで上回っている。
さらに,本手法は,新しい人工スピーカーの開発において顕著な性能を示す。
さらに、符号化された潜在特徴が、元の話者の音声を完全に再構成するのに十分な情報であることを示す。
提案手法は,話者の特性を様々なタスクでエンコードし,再構成するための一般的な手法として使用できることを示す。
関連論文リスト
- Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization [25.213694510527436]
既存の話者ダイアリゼーションシステムの多くは、単調な音響情報のみに依存している。
本稿では,音声,視覚,意味的手がかりを併用して話者ダイアリゼーションを向上する新しいマルチモーダル手法を提案する。
我々の手法は、最先端の話者ダイアリゼーション法より一貫して優れている。
論文 参考訳(メタデータ) (2024-08-22T03:34:03Z) - We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings [47.2515056854372]
音声合成においては、人間の声に含まれる豊かな感情と韻律変化のモデリングが自然音声の合成に不可欠である。
本稿では,従来の組込み方式として単一クラス中心ではなく,複数クラス中心を用いた話者分類訓練を行う新しい組込みネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T06:54:24Z) - Speaker Verification in Agent-Generated Conversations [47.6291644653831]
近年の大型言語モデル (LLM) の成功は、様々な話者の特徴やスタイルに合わせたロールプレイング・会話エージェントを開発し、汎用的・特殊な対話タスクを遂行する能力を高めるために広く関心を集めている。
本研究では,2つの発話が同一話者から発せられるかどうかを検証することを目的とした,エージェント生成会話における話者検証という,新たな評価課題を紹介する。
論文 参考訳(メタデータ) (2024-05-16T14:46:18Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Speaker Adaption with Intuitive Prosodic Features for Statistical
Parametric Speech Synthesis [50.5027550591763]
統計的パラメトリック音声合成のための直感的な韻律特徴を持つ話者適応法を提案する。
直感的な韻律的特徴は発話レベルまたは話者レベルで抽出され、それぞれ既存の話者エンコーディングベースおよび話者エンベディングベース適応フレームワークに統合される。
論文 参考訳(メタデータ) (2022-03-02T09:00:31Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。