論文の概要: ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided
Sequence Reordering
- arxiv url: http://arxiv.org/abs/2401.07333v1
- Date: Sun, 14 Jan 2024 17:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:43:01.471653
- Title: ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided
Sequence Reordering
- Title(参考訳): ELLA-V: アライメント誘導配列並べ替えによる安定型ニューラルコーデック言語モデリング
- Authors: Yakun Song, Zhuo Chen, Xiaofei Wang, Ziyang Ma, Xie Chen
- Abstract要約: ELLA-Vは音声合成音声の音素レベルでのきめ細かい制御を可能にするテキスト音声合成フレームワークである。
我々のモデルは精度でVALL-Eより優れており、より安定した結果が得られる。
- 参考スコア(独自算出の注目度): 9.646664943647208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The language model (LM) approach based on acoustic and linguistic prompts,
such as VALL-E, has achieved remarkable progress in the field of zero-shot
audio generation. However, existing methods still have some limitations: 1)
repetitions, transpositions, and omissions in the output synthesized speech due
to limited alignment constraints between audio and phoneme tokens; 2)
challenges of fine-grained control over the synthesized speech with
autoregressive (AR) language model; 3) infinite silence generation due to the
nature of AR-based decoding, especially under the greedy strategy. To alleviate
these issues, we propose ELLA-V, a simple but efficient LM-based zero-shot
text-to-speech (TTS) framework, which enables fine-grained control over
synthesized audio at the phoneme level. The key to ELLA-V is interleaving
sequences of acoustic and phoneme tokens, where phoneme tokens appear ahead of
the corresponding acoustic tokens. The experimental findings reveal that our
model outperforms VALL-E in terms of accuracy and delivers more stable results
using both greedy and sampling-based decoding strategies. The code of ELLA-V
will be open-sourced after cleanups. Audio samples are available at
https://ereboas.github.io/ELLAV/.
- Abstract(参考訳): VALL-Eのような音響的および言語的プロンプトに基づく言語モデル(LM)アプローチは、ゼロショット音声生成の分野で顕著な進歩を遂げた。
しかし、既存の方法にはいくつかの制限がある。
1) 音声及び音素トークン間のアライメントの制限による出力合成音声における繰り返し、転置及び省略
2)自己回帰(AR)言語モデルを用いた合成音声のきめ細かい制御の課題
3)ARによる復号化の性質,特に欲張り戦略の下での無限沈黙生成。
そこで本研究では,音素レベルでの合成音声のきめ細かい制御を可能にする,単純かつ効率的なlmベースのゼロショットテキスト・ツー・スパイチ(tts)フレームワークであるella-vを提案する。
ELLA-Vの鍵となるのは、対応する音響トークンよりも先に音素トークンが現れる音響トークンと音素トークンの連成である。
実験結果から,本モデルは精度でVALL-Eより優れ,グリージーおよびサンプリングに基づく復号方式によりより安定した結果が得られることがわかった。
ELLA-Vのコードはクリーンアップ後にオープンソース化される。
オーディオサンプルはhttps://ereboas.github.io/ELLAV/で入手できる。
関連論文リスト
- LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [67.05155876895515]
LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - VoiceLDM: Text-to-Speech with Environmental Context [22.29992463094861]
VoiceLDMは、2つの異なる自然言語のプロンプトを正確に追従するオーディオを生成するために設計されたモデルである。
事前訓練されたコントラスト言語事前訓練(CLAP)とWhisperを利用することで、VoiceLDMは手動の注釈や書き起こしなしに大量の現実世界のオーディオで訓練される。
我々は,VoiceLDMが両入力条件に整合した可塑性音声を生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-24T15:20:59Z) - RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations [13.995231731152462]
本稿では,Lip-to-Speech合成のためのモジュール化フレームワークRobustL2Sを提案する。
非自己回帰列列列モデルは、自己教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは、音声特徴を生波形に変換する。
論文 参考訳(メタデータ) (2023-07-03T09:13:57Z) - Spoken Question Answering and Speech Continuation Using
Spectrogram-Powered LLM [20.094593730079403]
本稿では,事前学習された大規模言語モデル(LLM)を用いて質問応答(QA)と音声継続を行う手法を提案する。
LLMに事前訓練された音声エンコーダを付与することにより、我々のモデルは音声入力を取り込み、音声出力を生成することができる。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。