論文の概要: ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided
Sequence Reordering
- arxiv url: http://arxiv.org/abs/2401.07333v1
- Date: Sun, 14 Jan 2024 17:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:43:01.471653
- Title: ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided
Sequence Reordering
- Title(参考訳): ELLA-V: アライメント誘導配列並べ替えによる安定型ニューラルコーデック言語モデリング
- Authors: Yakun Song, Zhuo Chen, Xiaofei Wang, Ziyang Ma, Xie Chen
- Abstract要約: ELLA-Vは音声合成音声の音素レベルでのきめ細かい制御を可能にするテキスト音声合成フレームワークである。
我々のモデルは精度でVALL-Eより優れており、より安定した結果が得られる。
- 参考スコア(独自算出の注目度): 9.646664943647208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The language model (LM) approach based on acoustic and linguistic prompts,
such as VALL-E, has achieved remarkable progress in the field of zero-shot
audio generation. However, existing methods still have some limitations: 1)
repetitions, transpositions, and omissions in the output synthesized speech due
to limited alignment constraints between audio and phoneme tokens; 2)
challenges of fine-grained control over the synthesized speech with
autoregressive (AR) language model; 3) infinite silence generation due to the
nature of AR-based decoding, especially under the greedy strategy. To alleviate
these issues, we propose ELLA-V, a simple but efficient LM-based zero-shot
text-to-speech (TTS) framework, which enables fine-grained control over
synthesized audio at the phoneme level. The key to ELLA-V is interleaving
sequences of acoustic and phoneme tokens, where phoneme tokens appear ahead of
the corresponding acoustic tokens. The experimental findings reveal that our
model outperforms VALL-E in terms of accuracy and delivers more stable results
using both greedy and sampling-based decoding strategies. The code of ELLA-V
will be open-sourced after cleanups. Audio samples are available at
https://ereboas.github.io/ELLAV/.
- Abstract(参考訳): VALL-Eのような音響的および言語的プロンプトに基づく言語モデル(LM)アプローチは、ゼロショット音声生成の分野で顕著な進歩を遂げた。
しかし、既存の方法にはいくつかの制限がある。
1) 音声及び音素トークン間のアライメントの制限による出力合成音声における繰り返し、転置及び省略
2)自己回帰(AR)言語モデルを用いた合成音声のきめ細かい制御の課題
3)ARによる復号化の性質,特に欲張り戦略の下での無限沈黙生成。
そこで本研究では,音素レベルでの合成音声のきめ細かい制御を可能にする,単純かつ効率的なlmベースのゼロショットテキスト・ツー・スパイチ(tts)フレームワークであるella-vを提案する。
ELLA-Vの鍵となるのは、対応する音響トークンよりも先に音素トークンが現れる音響トークンと音素トークンの連成である。
実験結果から,本モデルは精度でVALL-Eより優れ,グリージーおよびサンプリングに基づく復号方式によりより安定した結果が得られることがわかった。
ELLA-Vのコードはクリーンアップ後にオープンソース化される。
オーディオサンプルはhttps://ereboas.github.io/ELLAV/で入手できる。
関連論文リスト
- Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers [119.89284877061779]
本稿では,ゼロショット音声合成(TTS)の節目となる,ニューラルネットワークモデルの最新の進歩であるVALL-E 2を紹介する。
VALL-E 2は、その複雑さや反復句によって伝統的に困難な文であっても、高品質な音声を一貫して合成する。
この研究の利点は、失語症のある人や筋萎縮性側索硬化症を持つ人のためのスピーチを生成するなど、貴重な努力に寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-08T06:31:03Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。