論文の概要: VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment
- arxiv url: http://arxiv.org/abs/2406.07855v1
- Date: Wed, 12 Jun 2024 04:09:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:34:46.496469
- Title: VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment
- Title(参考訳): 単調アライメントによるVALL-E Rのロバストかつ効率的なゼロショットテキスト音声合成
- Authors: Bing Han, Long Zhou, Shujie Liu, Sanyuan Chen, Lingwei Meng, Yanming Qian, Yanqing Liu, Sheng Zhao, Jinyu Li, Furu Wei,
- Abstract要約: VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
- 参考スコア(独自算出の注目度): 101.2489492032816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the help of discrete neural audio codecs, large language models (LLM) have increasingly been recognized as a promising methodology for zero-shot Text-to-Speech (TTS) synthesis. However, sampling based decoding strategies bring astonishing diversity to generation, but also pose robustness issues such as typos, omissions and repetition. In addition, the high sampling rate of audio also brings huge computational overhead to the inference process of autoregression. To address these issues, we propose VALL-E R, a robust and efficient zero-shot TTS system, building upon the foundation of VALL-E. Specifically, we introduce a phoneme monotonic alignment strategy to strengthen the connection between phonemes and acoustic sequence, ensuring a more precise alignment by constraining the acoustic tokens to match their associated phonemes. Furthermore, we employ a codec-merging approach to downsample the discrete codes in shallow quantization layer, thereby accelerating the decoding speed while preserving the high quality of speech output. Benefiting from these strategies, VALL-E R obtains controllablity over phonemes and demonstrates its strong robustness by approaching the WER of ground truth. In addition, it requires fewer autoregressive steps, with over 60% time reduction during inference. This research has the potential to be applied to meaningful projects, including the creation of speech for those affected by aphasia. Audio samples will be available at: https://aka.ms/valler.
- Abstract(参考訳): 離散型ニューラルオーディオコーデックの助けを借りて、大規模言語モデル(LLM)は、ゼロショットテキスト音声合成(TTS)のための有望な方法論としてますます認識されている。
しかし、サンプリングに基づく復号化戦略は、驚くべき多様性を生み出すだけでなく、タイポス、省略、反復といった堅牢性の問題を引き起こす。
さらに、高サンプリングレートのオーディオはまた、自己回帰の推論プロセスに膨大な計算オーバーヘッドをもたらす。
これらの問題に対処するために,我々は,VALL-Eの基礎の上に構築された,堅牢で効率的なゼロショットTSシステムであるVALL-E Rを提案する。
具体的には、音素と音響シーケンスの接続を強化するために、音素のモノトニックアライメント戦略を導入し、関連する音素に一致するように音響トークンを拘束することで、より正確なアライメントを確保する。
さらに,低量子化層における離散符号の復号化にコーデックマージ手法を用い,高い品質の音声出力を保ちながら復号速度を高速化する。
これらの戦略に適合して、VALL-E Rは音素に対する制御ラブラリティを取得し、WERに接することで強靭性を示す。
さらに、自動回帰ステップを少なくし、推論中に60%以上の時間を短縮する。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
オーディオサンプルは以下の通りである。
関連論文リスト
- Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - TacoLM: GaTed Attention Equipped Codec Language Model are Efficient Zero-Shot Text to Speech Synthesizers [8.485772660435464]
我々は,新しいニューラルLM,すなわちTacoLMを導入する。
TacoLMは、トレーニングと推論効率を改善するために、ゲートアテンションメカニズムを導入している。
TacoLMは、VALL-Eと比較して、単語エラー率、話者類似度、平均評価スコアが90%少なく、5.2倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-06-22T06:39:52Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers [119.89284877061779]
本稿では,ゼロショット音声合成(TTS)の節目となる,ニューラルネットワークモデルの最新の進歩であるVALL-E 2を紹介する。
VALL-E 2は、その複雑さや反復句によって伝統的に困難な文であっても、高品質な音声を一貫して合成する。
この研究の利点は、失語症のある人や筋萎縮性側索硬化症を持つ人のためのスピーチを生成するなど、貴重な努力に寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-08T06:31:03Z) - ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided
Sequence Reordering [9.646664943647208]
ELLA-Vは音声合成音声の音素レベルでのきめ細かい制御を可能にするテキスト音声合成フレームワークである。
我々のモデルは精度でVALL-Eより優れており、より安定した結果が得られる。
論文 参考訳(メタデータ) (2024-01-14T17:43:55Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。