論文の概要: AccentBox: Towards High-Fidelity Zero-Shot Accent Generation
- arxiv url: http://arxiv.org/abs/2409.09098v1
- Date: Fri, 13 Sep 2024 06:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:18:51.961531
- Title: AccentBox: Towards High-Fidelity Zero-Shot Accent Generation
- Title(参考訳): AccentBox: 高忠実度ゼロショットアクセント生成を目指して
- Authors: Jinzuomu Zhong, Korin Richmond, Zhiba Su, Siqi Sun,
- Abstract要約: 本稿では、外部アクセント変換(FAC)、アクセント付きTS、ZS-TTSを統一したゼロショットアクセント生成を提案する。
第1段階では、アクセント識別(AID)に関するSOTA(State-of-the-art)を未確認話者に対して0.56f1のスコアで達成する。
第2段階では、AIDモデルにより抽出された事前訓練された話者認識アクセント埋め込みにZS-TTSシステムを適用した。
- 参考スコア(独自算出の注目度): 20.40688498862892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent Zero-Shot Text-to-Speech (ZS-TTS) models have achieved high naturalness and speaker similarity, they fall short in accent fidelity and control. To address this issue, we propose zero-shot accent generation that unifies Foreign Accent Conversion (FAC), accented TTS, and ZS-TTS, with a novel two-stage pipeline. In the first stage, we achieve state-of-the-art (SOTA) on Accent Identification (AID) with 0.56 f1 score on unseen speakers. In the second stage, we condition ZS-TTS system on the pretrained speaker-agnostic accent embeddings extracted by the AID model. The proposed system achieves higher accent fidelity on inherent/cross accent generation, and enables unseen accent generation.
- Abstract(参考訳): 最近のZero-Shot Text-to-Speech(ZS-TTS)モデルは、自然度と話者の類似性が高いが、アクセントの忠実さと制御性が不足している。
この問題に対処するため、新たな2段階パイプラインで、外部アクセント変換(FAC)、アクセント付きTS、ZS-TTSを統一するゼロショットアクセント生成を提案する。
第1段階では、アクセント識別(AID)に関するSOTA(State-of-the-art)を未確認話者に対して0.56f1のスコアで達成する。
第2段階では、AIDモデルにより抽出された事前訓練された話者認識アクセント埋め込みにZS-TTSシステムを適用した。
提案システムは,固有/クロスアクセント生成において高いアクセント忠実度を実現し,目に見えないアクセント生成を可能にする。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech [30.110058338155675]
話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
論文 参考訳(メタデータ) (2023-06-25T06:46:36Z) - Modelling low-resource accents without accent-specific TTS frontend [4.185844990558149]
本研究は,TTSを持たない話者のアクセントをモデル化することに焦点を当てる。
本稿では,まずターゲットアクセントデータを,音声変換によるドナー音声のように拡張する手法を提案する。
次に、録音データと合成データを組み合わせてマルチスピーカのマルチアクセントTSモデルを訓練し、ターゲットアクセントを生成する。
論文 参考訳(メタデータ) (2023-01-11T18:00:29Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Explicit Intensity Control for Accented Text-to-speech [65.35831577398174]
TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
論文 参考訳(メタデータ) (2022-10-27T12:23:41Z) - Controllable Accented Text-to-Speech Synthesis [76.80549143755242]
我々は、推論中にアクセントとその強度を制御できるニューラルネットワークTSアーキテクチャを提案する。
これは、明示的な強度制御を伴うアクセント付きTS合成の最初の研究である。
論文 参考訳(メタデータ) (2022-09-22T06:13:07Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。