論文の概要: VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech
with Adversarial Learning and Architecture Design
- arxiv url: http://arxiv.org/abs/2307.16430v1
- Date: Mon, 31 Jul 2023 06:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:39:29.536357
- Title: VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech
with Adversarial Learning and Architecture Design
- Title(参考訳): VITS2: 逆学習とアーキテクチャ設計による単段階テキスト音声の質と効率の向上
- Authors: Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong,
Sangjin Kim
- Abstract要約: より自然な音声を効率よく合成する単段音声合成モデルVITS2を提案する。
本研究では,改良された構造と学習機構を提案し,本手法が自然性向上に有効であることを示す。
提案手法により,先行研究における音素変換への強い依存を著しく低減できることを示す。
- 参考スコア(独自算出の注目度): 7.005639198341213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-stage text-to-speech models have been actively studied recently, and
their results have outperformed two-stage pipeline systems. Although the
previous single-stage model has made great progress, there is room for
improvement in terms of its intermittent unnaturalness, computational
efficiency, and strong dependence on phoneme conversion. In this work, we
introduce VITS2, a single-stage text-to-speech model that efficiently
synthesizes a more natural speech by improving several aspects of the previous
work. We propose improved structures and training mechanisms and present that
the proposed methods are effective in improving naturalness, similarity of
speech characteristics in a multi-speaker model, and efficiency of training and
inference. Furthermore, we demonstrate that the strong dependence on phoneme
conversion in previous works can be significantly reduced with our method,
which allows a fully end-to-end single-stage approach.
- Abstract(参考訳): 近年,シングルステージ音声合成モデルが活発に研究され,その結果は2段階パイプラインシステムより優れている。
前回の単段モデルは大きな進歩を遂げているが、その断続的な不自然性、計算効率、音素変換への強い依存といった点で改善の余地がある。
本稿では,先行研究のいくつかの側面を改善し,より自然な音声を効率的に合成する単段音声合成モデルvits2について紹介する。
本稿では,構造と学習機構の改善を提案し,提案手法が自然性の向上,複数話者モデルにおける音声特性の類似性,訓練と推論の効率向上に有効であることを示す。
さらに,本手法により,前作における音素変換への強い依存度を著しく低減できることを示す。
関連論文リスト
- Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - End-to-End Speech Recognition and Disfluency Removal with Acoustic
Language Model Pretraining [0.0]
2段階モデルとエンドツーエンドモデルのパフォーマンス比較を再考する。
弱自己教師対象を用いて事前訓練された音声ベース言語モデルは、同様に訓練された2段階モデルの性能に適合するか、超えていることがわかった。
論文 参考訳(メタデータ) (2023-09-08T17:12:14Z) - BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained
Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。
テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文 参考訳(メタデータ) (2023-07-01T15:10:01Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - An Investigation of End-to-End Models for Robust Speech Recognition [20.998349142078805]
本稿では,頑健な音声認識のための音声強調に基づく手法と3つの異なるモデルに基づく適応手法の比較を行う。
対向学習は特定の雑音の種類において最高の性能の手法であるが、クリーン音声WERを劣化させるコストがかかる。
他の比較的定常的なノイズタイプでは、新しい音声強調技術がモデルに基づく適応技術をすべて上回っていた。
論文 参考訳(メタデータ) (2021-02-11T19:47:13Z) - Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition [41.92991390542083]
本稿では,音素に基づくニューラルトランスデューサモデリングのための,シンプルで斬新で競争力のあるアプローチを提案する。
1つの音の文脈サイズは、最高の演奏に十分であることを示す。
我々の最高のモデル全体の性能はTED-Lium Release 2 と Switchboard corpora の State-of-the-art (SOTA) 結果に匹敵する。
論文 参考訳(メタデータ) (2020-10-30T16:53:29Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z) - HULK: An Energy Efficiency Benchmark Platform for Responsible Natural
Language Processing [76.38975568873765]
本稿では,自然言語処理のためのマルチタスクエネルギー効率ベンチマークプラットフォームであるHULKを紹介する。
我々は、事前訓練されたモデルのエネルギー効率を時間とコストの観点から比較する。
論文 参考訳(メタデータ) (2020-02-14T01:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。