論文の概要: Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale
- arxiv url: http://arxiv.org/abs/2306.15687v2
- Date: Thu, 19 Oct 2023 13:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 19:38:15.324446
- Title: Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale
- Title(参考訳): Voicebox: テキストによる多言語ユニバーサル音声生成
- Authors: Matthew Le, Apoorv Vyas, Bowen Shi, Brian Karrer, Leda Sari, Rashel
Moritz, Mary Williamson, Vimal Manohar, Yossi Adi, Jay Mahadeokar, Wei-Ning
Hsu
- Abstract要約: Voiceboxは、大規模音声のための最も多用途なテキスト誘導生成モデルである。
モノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用できる。
最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%のワードエラー率)とオーディオの類似性(0.580対0.681)は20倍高速である。
- 参考スコア(独自算出の注目度): 58.46845567087977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale generative models such as GPT and DALL-E have revolutionized the
research community. These models not only generate high fidelity outputs, but
are also generalists which can solve tasks not explicitly taught. In contrast,
speech generative models are still primitive in terms of scale and task
generalization. In this paper, we present Voicebox, the most versatile
text-guided generative model for speech at scale. Voicebox is a
non-autoregressive flow-matching model trained to infill speech, given audio
context and text, trained on over 50K hours of speech that are not filtered or
enhanced. Similar to GPT, Voicebox can perform many different tasks through
in-context learning, but is more flexible as it can also condition on future
context. Voicebox can be used for mono or cross-lingual zero-shot
text-to-speech synthesis, noise removal, content editing, style conversion, and
diverse sample generation. In particular, Voicebox outperforms the
state-of-the-art zero-shot TTS model VALL-E on both intelligibility (5.9% vs
1.9% word error rates) and audio similarity (0.580 vs 0.681) while being up to
20 times faster. Audio samples can be found in
\url{https://voicebox.metademolab.com}.
- Abstract(参考訳): GPTやDALL-Eのような大規模な生成モデルは、研究コミュニティに革命をもたらした。
これらのモデルは高忠実度出力を生成するだけでなく、明示的に教えられていないタスクを解く一般論者でもある。
対照的に、音声生成モデルは、スケールやタスクの一般化の観点からはまだ原始的である。
本稿では,音声合成モデルとして最も多彩な音声合成モデルであるvoiceboxを提案する。
voiceboxはノンリグレッシブなフローマッチングモデルで、音声コンテキストとテキストを入力し、フィルタや拡張されていない5万時間以上の音声でトレーニングする。
GPTと同様に、Voiceboxはコンテキスト内学習を通じてさまざまなタスクを実行できるが、将来的なコンテキストでも条件付けできるため、より柔軟である。
Voiceboxはモノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用することができる。
特にVoiceboxは、最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%ワードエラー率)とオーディオの類似性(0.580対0.681)の両方で、20倍高速である。
オーディオサンプルは \url{https://voicebox.metademolab.com} で見ることができる。
関連論文リスト
- Zero-Shot vs. Few-Shot Multi-Speaker TTS Using Pre-trained Czech SpeechT5 Model [3.462371782084948]
対象話者のデータのうち1分だけを用いて,任意の話者に対して合成音声を生成することができることを示す。
チェコの政治家や有名人に対して、私たちの合成音声の質の高さと類似性を実証することに成功しました。
論文 参考訳(メタデータ) (2024-07-24T11:14:06Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - VoiceLDM: Text-to-Speech with Environmental Context [22.29992463094861]
VoiceLDMは、2つの異なる自然言語のプロンプトを正確に追従するオーディオを生成するために設計されたモデルである。
事前訓練されたコントラスト言語事前訓練(CLAP)とWhisperを利用することで、VoiceLDMは手動の注釈や書き起こしなしに大量の現実世界のオーディオで訓練される。
我々は,VoiceLDMが両入力条件に整合した可塑性音声を生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-24T15:20:59Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。