Fugu-MT 論文翻訳(概要): We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings

論文の概要: We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings

arxiv url: http://arxiv.org/abs/2407.04291v1
Date: Fri, 5 Jul 2024 06:54:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 14:21:30.708239
Title: We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings
Title（参考訳）: 音声合成のバリエーション:話者埋め込みのためのサブセンタモデリング
Authors: Ismail Rasim Ulgen, Carlos Busso, John H. L. Hansen, Berrak Sisman,
Abstract要約: 音声合成においては、人間の声に含まれる豊かな感情と韻律変化のモデリングが自然音声の合成に不可欠である。本稿では,従来の組込み方式として単一クラス中心ではなく,複数クラス中心を用いた話者分類訓練を行う新しい組込みネットワークを提案する。
参考スコア（独自算出の注目度）: 47.2515056854372
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In speech synthesis, modeling of rich emotions and prosodic variations present in human voice are crucial to synthesize natural speech. Although speaker embeddings have been widely used in personalized speech synthesis as conditioning inputs, they are designed to lose variation to optimize speaker recognition accuracy. Thus, they are suboptimal for speech synthesis in terms of modeling the rich variations at the output speech distribution. In this work, we propose a novel speaker embedding network which utilizes multiple class centers in the speaker classification training rather than a single class center as traditional embeddings. The proposed approach introduces variations in the speaker embedding while retaining the speaker recognition performance since model does not have to map all of the utterances of a speaker into a single class center. We apply our proposed embedding in voice conversion task and show that our method provides better naturalness and prosody in synthesized speech.
Abstract（参考訳）: 音声合成においては、人間の声に含まれる豊かな感情と韻律変化のモデリングが自然音声の合成に不可欠である。話者埋め込みは、パーソナライズされた音声合成を条件付け入力として広く用いられているが、話者認識精度を最適化するために、変化を無くすように設計されている。したがって、これらは、出力音声分布におけるリッチな変動をモデル化するという点で、音声合成に最適である。本研究では,従来の組込みシステムとして単一クラス中心ではなく,複数のクラス中心を用いた話者分類訓練を行う新しい組込みネットワークを提案する。提案手法では,話者の発話をすべて単一クラス中心にマッピングする必要がないため,話者認識性能を維持しながら話者埋め込みのバリエーションを導入する。提案手法を音声変換タスクに応用し, 合成音声の自然性や韻律が向上することを示す。

関連論文リスト

Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation [6.289152035711056]
多様なスタイルで音声を増強するスタイル制御可能な音声生成モデルを提案する。提案システムは,従来のダイアリザのダイアリゼーションセグメントから開始する。オリジナルのオーディオと生成されたオーディオの両方からの話者埋め込みは、システムの堅牢性を高めるためにブレンドされる。
論文参考訳（メタデータ） (2025-09-18T05:21:20Z)
CoLMbo: Speaker Language Model for Descriptive Profiling [56.57669166980832]
話者認識システムは、しばしば分類タスクに限られ、詳細な話者特性を生成するのに苦労する。本稿では、話者エンコーダとプロンプトベースの条件付けを統合することで、これらの制約に対処する話者言語モデル(SLM)であるCoLMboを紹介する。 CoLMboはユーザ定義のプロンプトを利用して、新しい話者特性に動的に適応し、カスタマイズされた記述を提供する。
論文参考訳（メタデータ） (2025-06-11T03:50:16Z)
LoRP-TTS: Low-Rank Personalized Text-To-Speech [0.0]
音声合成モデルは、テキストを自然な音声に変換する。 Low-Rank Adaptation (LoRA) は、ノイズの多い環境で自然発話の単一記録をプロンプトとしてうまく利用することができる。
論文参考訳（メタデータ） (2025-02-11T14:00:12Z)
Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。 KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。 UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-01-11T00:47:29Z)
ELF: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis [5.824018496599849]
多数の話者をモデル化する新しい手法を提案する。訓練されたマルチスピーカーモデルのように、話者の全体的な特徴を詳細に表現することができる。
論文参考訳（メタデータ） (2023-11-20T13:13:24Z)
Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。音声言語理解モジュールを導入し、話者関連意味情報を抽出する。本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-09-19T09:13:30Z)
Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised Style Extractor and Hierarchical Modeling in Speech Synthesis [37.65745551401636]
音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色を合成した音声へスタイルを伝達することを目的としている。従来の方法では、合成された微細な韻律の特徴は、しばしばソース話者の平均的なスタイルを表す。コンテントと音色からスタイルを引き離すために, 強度制御型半教師付きスタイル抽出器を提案する。
論文参考訳（メタデータ） (2023-03-14T08:52:58Z)
ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文参考訳（メタデータ） (2023-02-16T08:10:41Z)
AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。話者特性を体系的にモデル化し、新しい話者の一般化を改善する。微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文参考訳（メタデータ） (2022-04-01T13:47:44Z)
Facetron: Multi-speaker Face-to-Speech Model based on Cross-modal Latent Representations [22.14238843571225]
個人の顔の映像を条件付けして、話者固有の音声波形を合成する効果的な方法を提案する。唇読解モデルを用いて唇の動きから言語的特徴を抽出し,顔画像から話者特性を予測する。本稿では,従来の手法よりも客観評価と主観評価の両面において,提案手法の優位性を示す。
論文参考訳（メタデータ） (2021-07-26T07:36:02Z)
Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。 SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文参考訳（メタデータ） (2021-06-06T15:34:11Z)
Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。 FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文参考訳（メタデータ） (2021-03-06T10:14:33Z)
Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。 FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-12-14T04:37:07Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)
Noise Robust TTS for Low Resource Speakers using Pre-trained Model and Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文参考訳（メタデータ） (2020-05-26T06:14:06Z)
Speaker Re-identification with Speaker Dependent Speech Enhancement [37.33388614967888]
本稿では,音声強調と話者認識を行う新しい手法を提案する。提案手法は,実環境における話者認識評価を目的としたVoxceleb1データセットを用いて評価する。
論文参考訳（メタデータ） (2020-05-15T23:02:10Z)
Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。テスト発話から直接適応に用いる話者表現を抽出する。
論文参考訳（メタデータ） (2020-02-14T05:05:36Z)
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。 SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2020-01-23T05:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。