論文の概要: Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale
- arxiv url: http://arxiv.org/abs/2306.15687v1
- Date: Fri, 23 Jun 2023 16:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-02 13:05:01.898416
- Title: Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale
- Title(参考訳): Voicebox: テキストによる多言語ユニバーサル音声生成
- Authors: Matthew Le, Apoorv Vyas, Bowen Shi, Brian Karrer, Leda Sari, Rashel
Moritz, Mary Williamson, Vimal Manohar, Yossi Adi, Jay Mahadeokar, Wei-Ning
Hsu
- Abstract要約: Voiceboxは、音声コンテキストとテキストを指定した音声を埋め込むために訓練された、非自己回帰フローマッチングモデルである。
コンテキスト内学習によって多くの異なるタスクを実行できるが、将来のコンテキストでも条件付けできるため、より柔軟である。
モノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用できる。
- 参考スコア(独自算出の注目度): 46.040983210603635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale generative models such as GPT and DALL-E have revolutionized
natural language processing and computer vision research. These models not only
generate high fidelity text or image outputs, but are also generalists which
can solve tasks not explicitly taught. In contrast, speech generative models
are still primitive in terms of scale and task generalization. In this paper,
we present Voicebox, the most versatile text-guided generative model for speech
at scale. Voicebox is a non-autoregressive flow-matching model trained to
infill speech, given audio context and text, trained on over 50K hours of
speech that are neither filtered nor enhanced. Similar to GPT, Voicebox can
perform many different tasks through in-context learning, but is more flexible
as it can also condition on future context. Voicebox can be used for mono or
cross-lingual zero-shot text-to-speech synthesis, noise removal, content
editing, style conversion, and diverse sample generation. In particular,
Voicebox outperforms the state-of-the-art zero-shot TTS model VALL-E on both
intelligibility (5.9% vs 1.9% word error rates) and audio similarity (0.580 vs
0.681) while being up to 20 times faster. See voicebox.metademolab.com for a
demo of the model.
- Abstract(参考訳): GPTやDALL-Eのような大規模生成モデルは自然言語処理やコンピュータビジョン研究に革命をもたらした。
これらのモデルは高忠実度テキストや画像出力を生成するだけでなく、明示的に教えられていないタスクを解く一般論者でもある。
対照的に、音声生成モデルは、スケールやタスクの一般化の観点からはまだ原始的である。
本稿では,音声合成モデルとして最も多彩な音声合成モデルであるvoiceboxを提案する。
voiceboxはノンリグレッシブなフローマッチングモデルで、音声のコンテキストとテキストを入力し、フィルタも拡張もされない5万時間以上の音声でトレーニングする。
GPTと同様に、Voiceboxはコンテキスト内学習を通じてさまざまなタスクを実行できるが、将来的なコンテキストでも条件付けできるため、より柔軟である。
Voiceboxはモノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用することができる。
特にVoiceboxは、最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%ワードエラー率)とオーディオの類似性(0.580対0.681)の両方で、20倍高速である。
モデルのデモについてはvoicebox.metademolab.comを参照。
関連論文リスト
- CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and
Textually Described Voices [28.998590651956153]
そこで本研究では, 音声変換, 言語間変換, 楽器変換, テキスト・ツー・ボイス変換の4つの非標準的応用について検討する。
kNN-VCは,声質変換や言語間変換において高い性能を維持していることがわかった。
楽器とテキスト・ツー・ボイス・コンバージョン・タスクでは、より複雑な結果が得られる。
論文 参考訳(メタデータ) (2023-10-12T08:00:25Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [67.05155876895515]
LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - VoiceLDM: Text-to-Speech with Environmental Context [22.29992463094861]
VoiceLDMは、2つの異なる自然言語のプロンプトを正確に追従するオーディオを生成するために設計されたモデルである。
事前訓練されたコントラスト言語事前訓練(CLAP)とWhisperを利用することで、VoiceLDMは手動の注釈や書き起こしなしに大量の現実世界のオーディオで訓練される。
我々は,VoiceLDMが両入力条件に整合した可塑性音声を生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-24T15:20:59Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [59.54465462717297]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。