論文の概要: The FruitShell French synthesis system at the Blizzard 2023 Challenge
- arxiv url: http://arxiv.org/abs/2309.00223v3
- Date: Wed, 25 Sep 2024 07:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 14:40:04.676897
- Title: The FruitShell French synthesis system at the Blizzard 2023 Challenge
- Title(参考訳): ブリザード2023チャレンジにおけるフルートシェルフランスの合成システム
- Authors: Xin Qi, Xiaopeng Wang, Zhiyong Wang, Wang Liu, Mingming Ding, Shuchen Shi,
- Abstract要約: 本稿では,Blizzard Challenge 2023のためのフランス語音声合成システムを提案する。
この課題は、女性話者から高品質な音声を生成することと、特定の個人によく似た音声を生成することの2つのタスクから構成される。
- 参考スコア(独自算出の注目度): 12.459890525109646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a French text-to-speech synthesis system for the Blizzard Challenge 2023. The challenge consists of two tasks: generating high-quality speech from female speakers and generating speech that closely resembles specific individuals. Regarding the competition data, we conducted a screening process to remove missing or erroneous text data. We organized all symbols except for phonemes and eliminated symbols that had no pronunciation or zero duration. Additionally, we added word boundary and start/end symbols to the text, which we have found to improve speech quality based on our previous experience. For the Spoke task, we performed data augmentation according to the competition rules. We used an open-source G2P model to transcribe the French texts into phonemes. As the G2P model uses the International Phonetic Alphabet (IPA), we applied the same transcription process to the provided competition data for standardization. However, due to compiler limitations in recognizing special symbols from the IPA chart, we followed the rules to convert all phonemes into the phonetic scheme used in the competition data. Finally, we resampled all competition audio to a uniform sampling rate of 16 kHz. We employed a VITS-based acoustic model with the hifigan vocoder. For the Spoke task, we trained a multi-speaker model and incorporated speaker information into the duration predictor, vocoder, and flow layers of the model. The evaluation results of our system showed a quality MOS score of 3.6 for the Hub task and 3.4 for the Spoke task, placing our system at an average level among all participating teams.
- Abstract(参考訳): 本稿では,Blizzard Challenge 2023のためのフランス語音声合成システムを提案する。
この課題は、女性話者から高品質な音声を生成することと、特定の個人によく似た音声を生成することの2つのタスクから構成される。
競合データについては,欠落したテキストデータや誤テキストデータを除去するスクリーニング処理を行った。
音素以外のすべての記号を整理し,発音や持続時間を持たない記号を除去した。
さらに、テキストに単語境界と開始/終了記号を追加し、過去の経験を基にした音声品質の向上を図った。
Spokeタスクでは,競合ルールに従ってデータ拡張を行った。
我々は、オープンソースのG2Pモデルを使用して、フランス語のテキストを音素に書き起こした。
G2PモデルはIPA(International Phonetic Alphabet)を用いており、提案した競合データに同じ書き起こし処理を適用して標準化した。
しかし、IPAチャートから特殊記号を認識する際のコンパイラの制限により、全ての音素を競合データに使用する音素に変換する規則に従った。
最後に,全競合音声を均一サンプリングレート16kHzに再サンプリングした。
ハイフィガンボコーダを用いたVITSを用いた音響モデルを用いた。
Spokeタスクでは,複数話者モデルを訓練し,モデルの持続時間予測器,ボコーダ,フロー層に話者情報を組み込んだ。
システム評価の結果,Hubタスクが3.6,Spokeタスクが3.4,システムの平均レベルが全参加チーム中の平均値となった。
関連論文リスト
- VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers [119.89284877061779]
本稿では,ゼロショット音声合成(TTS)の節目となる,ニューラルネットワークモデルの最新の進歩であるVALL-E 2を紹介する。
VALL-E 2は、その複雑さや反復句によって伝統的に困難な文であっても、高品質な音声を一貫して合成する。
この研究の利点は、失語症のある人や筋萎縮性側索硬化症を持つ人のためのスピーチを生成するなど、貴重な努力に寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-08T06:31:03Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - The IMS Toucan System for the Blizzard Challenge 2023 [25.460791056978895]
Blizzard Challenge 2023へのコントリビューションのため、Blizzard Challenge 2021に提出したシステムを改善しました。
提案手法は,フランス語におけるホモグラフの規則に基づく曖昧さを含む,規則に基づく音素間テキスト処理システムである。
最新の最先端アプローチを組み合わせたGANベースのニューラルボコーダは、スペクトログラムを最終波に変換する。
論文 参考訳(メタデータ) (2023-10-26T15:53:29Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Transformer VQ-VAE for Unsupervised Unit Discovery and Speech Synthesis:
ZeroSpeech 2020 Challenge [27.314082075933197]
ZeroSpeech 2020の課題は、テキスト情報や音声ラベルを使わずにスピーチを構築することだ。
本研究では,(1)音声を与えられた場合,(2)教師なしの方法でサブワード単位を抽出し,(2)新規話者から音声を再合成する,という2つの主要コンポーネントに対処しなければならないシステムを構築した。
ここでは、教師なし単位探索のためのTransformer-based VQ-VAEと、抽出したコードブックから音声合成のためのTransformer-based inverterを提案する。
論文 参考訳(メタデータ) (2020-05-24T07:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。