論文の概要: Transformer VQ-VAE for Unsupervised Unit Discovery and Speech Synthesis:
ZeroSpeech 2020 Challenge
- arxiv url: http://arxiv.org/abs/2005.11676v1
- Date: Sun, 24 May 2020 07:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 13:23:03.015621
- Title: Transformer VQ-VAE for Unsupervised Unit Discovery and Speech Synthesis:
ZeroSpeech 2020 Challenge
- Title(参考訳): 教師なし単位発見・音声合成のためのトランスフォーマーVQ-VAE: ZeroSpeech 2020 Challenge
- Authors: Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- Abstract要約: ZeroSpeech 2020の課題は、テキスト情報や音声ラベルを使わずにスピーチを構築することだ。
本研究では,(1)音声を与えられた場合,(2)教師なしの方法でサブワード単位を抽出し,(2)新規話者から音声を再合成する,という2つの主要コンポーネントに対処しなければならないシステムを構築した。
ここでは、教師なし単位探索のためのTransformer-based VQ-VAEと、抽出したコードブックから音声合成のためのTransformer-based inverterを提案する。
- 参考スコア(独自算出の注目度): 27.314082075933197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we report our submitted system for the ZeroSpeech 2020
challenge on Track 2019. The main theme in this challenge is to build a speech
synthesizer without any textual information or phonetic labels. In order to
tackle those challenges, we build a system that must address two major
components such as 1) given speech audio, extract subword units in an
unsupervised way and 2) re-synthesize the audio from novel speakers. The system
also needs to balance the codebook performance between the ABX error rate and
the bitrate compression rate. Our main contribution here is we proposed
Transformer-based VQ-VAE for unsupervised unit discovery and Transformer-based
inverter for the speech synthesis given the extracted codebook. Additionally,
we also explored several regularization methods to improve performance even
further.
- Abstract(参考訳): 本稿では,トラック2019におけるZeroSpeech 2020チャレンジの提出システムについて報告する。
この課題の主なテーマは、テキスト情報や音声ラベルなしで音声合成装置を構築することである。
これらの課題に対処するために、私たちは2つの主要なコンポーネントに対処しなければならないシステムを構築します。
1)音声音声を付与し、教師なしの方法でサブワードを抽出し、
2)新規話者からの音声を再合成する。
また、abxエラーレートとビットレート圧縮レートの間でコードブックのパフォーマンスをバランスさせる必要がある。
ここでは、教師なし単位探索のためのTransformer-based VQ-VAEと、抽出したコードブックから音声合成のためのTransformer-based inverterを提案する。
さらに,性能向上のための正規化手法についても検討した。
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers [119.89284877061779]
本稿では,ゼロショット音声合成(TTS)の節目となる,ニューラルネットワークモデルの最新の進歩であるVALL-E 2を紹介する。
VALL-E 2は、その複雑さや反復句によって伝統的に困難な文であっても、高品質な音声を一貫して合成する。
この研究の利点は、失語症のある人や筋萎縮性側索硬化症を持つ人のためのスピーチを生成するなど、貴重な努力に寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-08T06:31:03Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - The FruitShell French synthesis system at the Blizzard 2023 Challenge [12.459890525109646]
本稿では,Blizzard Challenge 2023のためのフランス語音声合成システムを提案する。
この課題は、女性話者から高品質な音声を生成することと、特定の個人によく似た音声を生成することの2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-09-01T02:56:20Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Non-autoregressive sequence-to-sequence voice conversion [47.521186595305984]
本稿では,非自己回帰シーケンストシーケンス(nar-s2s)モデルに基づく新しい音声変換法を提案する。
我々はTransformerの代わりにConvolution-augmented Transformer(Conformer)を導入し、入力シーケンスからローカルとグローバルの両方のコンテキスト情報をキャプチャできるようにする。
論文 参考訳(メタデータ) (2021-04-14T11:53:51Z) - The NU Voice Conversion System for the Voice Conversion Challenge 2020:
On the Effectiveness of Sequence-to-sequence Models and Autoregressive Neural
Vocoders [42.636504426142906]
本稿では,名古屋大学におけるVoice Conversion Challenge 2020(VCC 2020)のための音声変換システムについて紹介する。
本稿では,最近のVCにおける2つの重要な技術,Sequence-to-Sequence(seq2seq)モデルとAutoregressive(AR)ニューラルボコーダの有効性について検討する。
論文 参考訳(メタデータ) (2020-10-09T09:19:37Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。