論文の概要: VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech
with Adversarial Learning and Architecture Design
- arxiv url: http://arxiv.org/abs/2307.16430v1
- Date: Mon, 31 Jul 2023 06:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:39:29.536357
- Title: VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech
with Adversarial Learning and Architecture Design
- Title(参考訳): VITS2: 逆学習とアーキテクチャ設計による単段階テキスト音声の質と効率の向上
- Authors: Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong,
Sangjin Kim
- Abstract要約: より自然な音声を効率よく合成する単段音声合成モデルVITS2を提案する。
本研究では,改良された構造と学習機構を提案し,本手法が自然性向上に有効であることを示す。
提案手法により,先行研究における音素変換への強い依存を著しく低減できることを示す。
- 参考スコア(独自算出の注目度): 7.005639198341213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-stage text-to-speech models have been actively studied recently, and
their results have outperformed two-stage pipeline systems. Although the
previous single-stage model has made great progress, there is room for
improvement in terms of its intermittent unnaturalness, computational
efficiency, and strong dependence on phoneme conversion. In this work, we
introduce VITS2, a single-stage text-to-speech model that efficiently
synthesizes a more natural speech by improving several aspects of the previous
work. We propose improved structures and training mechanisms and present that
the proposed methods are effective in improving naturalness, similarity of
speech characteristics in a multi-speaker model, and efficiency of training and
inference. Furthermore, we demonstrate that the strong dependence on phoneme
conversion in previous works can be significantly reduced with our method,
which allows a fully end-to-end single-stage approach.
- Abstract(参考訳): 近年,シングルステージ音声合成モデルが活発に研究され,その結果は2段階パイプラインシステムより優れている。
前回の単段モデルは大きな進歩を遂げているが、その断続的な不自然性、計算効率、音素変換への強い依存といった点で改善の余地がある。
本稿では,先行研究のいくつかの側面を改善し,より自然な音声を効率的に合成する単段音声合成モデルvits2について紹介する。
本稿では,構造と学習機構の改善を提案し,提案手法が自然性の向上,複数話者モデルにおける音声特性の類似性,訓練と推論の効率向上に有効であることを示す。
さらに,本手法により,前作における音素変換への強い依存度を著しく低減できることを示す。
関連論文リスト
- Single-stage TTS with Masked Audio Token Modeling and Semantic Knowledge Distillation [6.813336394564509]
単一段階における高品質な音声生成を可能にする意味知識蒸留法を提案する。
提案モデルでは, 音声品質, 聞きやすさ, 話者類似性を, 単段ベースラインと比較して改善する。
論文 参考訳(メタデータ) (2024-09-17T09:08:43Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:22:59Z) - Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition [12.77573161345651]
本稿では,E2E ASRのための事前学習された音声表現モデルと大規模言語モデル(LLM)を統合することを提案する。
提案モデルは,音響特徴抽出や音響・言語モデリングを含む,ASRプロセス全体の最適化を可能にする。
論文 参考訳(メタデータ) (2023-12-06T18:34:42Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained
Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。
テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文 参考訳(メタデータ) (2023-07-01T15:10:01Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - An Investigation of End-to-End Models for Robust Speech Recognition [20.998349142078805]
本稿では,頑健な音声認識のための音声強調に基づく手法と3つの異なるモデルに基づく適応手法の比較を行う。
対向学習は特定の雑音の種類において最高の性能の手法であるが、クリーン音声WERを劣化させるコストがかかる。
他の比較的定常的なノイズタイプでは、新しい音声強調技術がモデルに基づく適応技術をすべて上回っていた。
論文 参考訳(メタデータ) (2021-02-11T19:47:13Z) - Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition [41.92991390542083]
本稿では,音素に基づくニューラルトランスデューサモデリングのための,シンプルで斬新で競争力のあるアプローチを提案する。
1つの音の文脈サイズは、最高の演奏に十分であることを示す。
我々の最高のモデル全体の性能はTED-Lium Release 2 と Switchboard corpora の State-of-the-art (SOTA) 結果に匹敵する。
論文 参考訳(メタデータ) (2020-10-30T16:53:29Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。