Fugu-MT 論文翻訳(概要): SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection

論文の概要: SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection

arxiv url: http://arxiv.org/abs/2408.17432v1
Date: Fri, 30 Aug 2024 17:34:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 14:36:36.941862
Title: SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection
Title（参考訳）: SelectTTS: 離散単位フレーム選択による誰でも音声を合成する
Authors: Ismail Rasim Ulgen, Shreeram Suresh Chandra, Junchen Lu, Berrak Sisman,
Abstract要約: 本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
参考スコア（独自算出の注目度）: 7.6732312922460055
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthesizing the voices of unseen speakers is a persisting challenge in multi-speaker text-to-speech (TTS). Most multi-speaker TTS models rely on modeling speaker characteristics through speaker conditioning during training. Modeling unseen speaker attributes through this approach has necessitated an increase in model complexity, which makes it challenging to reproduce results and improve upon them. We design a simple alternative to this. We propose SelectTTS, a novel method to select the appropriate frames from the target speaker and decode using frame-level self-supervised learning (SSL) features. We show that this approach can effectively capture speaker characteristics for unseen speakers, and achieves comparable results to other multi-speaker TTS frameworks in both objective and subjective metrics. With SelectTTS, we show that frame selection from the target speaker's speech is a direct way to achieve generalization in unseen speakers with low model complexity. We achieve better speaker similarity performance than SOTA baselines XTTS-v2 and VALL-E with over an 8x reduction in model parameters and a 270x reduction in training data
Abstract（参考訳）: 未確認話者の声を合成することは、マルチ話者音声(TTS)において持続的な課題である。ほとんどのマルチスピーカーTSモデルは、訓練中の話者条件付けによる話者特性のモデル化に依存している。このアプローチによる未知の話者属性のモデリングは、モデル複雑さの増加を必要としており、結果の再現と改善が困難になっている。私たちはこれに代わる単純な選択肢を設計します。本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。提案手法は,未知話者の話者特性を効果的に把握し,客観的・主観的両指標において,他のマルチ話者TSフレームワークに匹敵する結果が得られることを示す。 SelectTTSでは、対象話者の音声からのフレーム選択が、モデル複雑さの低い未確認話者の一般化を実現する直接的な方法であることを示す。モデルパラメータの8倍、トレーニングデータの270倍、SOTAベースラインのXTTS-v2とVALL-Eよりも優れた話者類似性を実現する。

関連論文リスト

MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
kNN Retrieval for Simple and Effective Zero-Shot Multi-speaker Text-to-Speech [18.701864254184308]
kNN-TTSは、ゼロショットマルチ話者テキスト音声合成のためのシンプルで効果的なフレームワークである。我々のモデルは、1つの話者から書き起こされた音声に基づいて訓練され、最先端のモデルに匹敵する性能を達成する。また、微細な音声モーフィングを可能にするパラメータも導入する。
論文参考訳（メタデータ） (2024-08-20T12:09:58Z)
Disentangling Voice and Content with Self-Supervision for Speaker Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文参考訳（メタデータ） (2023-10-02T12:02:07Z)
Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文参考訳（メタデータ） (2022-11-17T07:17:24Z)
Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation [21.218195769245032]
本稿では,残差アダプタと呼ばれるトレーニング可能な軽量モジュールでバックボーンモデルを拡張したパラメータ効率の低い少数話者適応を提案する。実験結果から,提案手法は完全微調整手法と比較して,競合自然性や話者類似性を実現できることが示された。
論文参考訳（メタデータ） (2022-10-28T03:33:07Z)
AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。話者特性を体系的にモデル化し、新しい話者の一般化を改善する。微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文参考訳（メタデータ） (2022-04-01T13:47:44Z)
Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T11:26:56Z)
Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文参考訳（メタデータ） (2021-11-07T09:53:31Z)
GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。 TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文参考訳（メタデータ） (2021-08-16T04:25:31Z)
GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2021-06-29T08:15:30Z)
Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。 SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文参考訳（メタデータ） (2021-06-06T15:34:11Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。