Fugu-MT 論文翻訳(概要): Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale

論文の概要: Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale

arxiv url: http://arxiv.org/abs/2306.15687v1
Date: Fri, 23 Jun 2023 16:23:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-02 13:05:01.898416
Title: Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale
Title（参考訳）: Voicebox: テキストによる多言語ユニバーサル音声生成
Authors: Matthew Le, Apoorv Vyas, Bowen Shi, Brian Karrer, Leda Sari, Rashel Moritz, Mary Williamson, Vimal Manohar, Yossi Adi, Jay Mahadeokar, Wei-Ning Hsu
Abstract要約: Voiceboxは、音声コンテキストとテキストを指定した音声を埋め込むために訓練された、非自己回帰フローマッチングモデルである。コンテキスト内学習によって多くの異なるタスクを実行できるが、将来のコンテキストでも条件付けできるため、より柔軟である。モノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用できる。
参考スコア（独自算出の注目度）: 46.040983210603635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale generative models such as GPT and DALL-E have revolutionized natural language processing and computer vision research. These models not only generate high fidelity text or image outputs, but are also generalists which can solve tasks not explicitly taught. In contrast, speech generative models are still primitive in terms of scale and task generalization. In this paper, we present Voicebox, the most versatile text-guided generative model for speech at scale. Voicebox is a non-autoregressive flow-matching model trained to infill speech, given audio context and text, trained on over 50K hours of speech that are neither filtered nor enhanced. Similar to GPT, Voicebox can perform many different tasks through in-context learning, but is more flexible as it can also condition on future context. Voicebox can be used for mono or cross-lingual zero-shot text-to-speech synthesis, noise removal, content editing, style conversion, and diverse sample generation. In particular, Voicebox outperforms the state-of-the-art zero-shot TTS model VALL-E on both intelligibility (5.9% vs 1.9% word error rates) and audio similarity (0.580 vs 0.681) while being up to 20 times faster. See voicebox.metademolab.com for a demo of the model.
Abstract（参考訳）: GPTやDALL-Eのような大規模生成モデルは自然言語処理やコンピュータビジョン研究に革命をもたらした。これらのモデルは高忠実度テキストや画像出力を生成するだけでなく、明示的に教えられていないタスクを解く一般論者でもある。対照的に、音声生成モデルは、スケールやタスクの一般化の観点からはまだ原始的である。本稿では,音声合成モデルとして最も多彩な音声合成モデルであるvoiceboxを提案する。 voiceboxはノンリグレッシブなフローマッチングモデルで、音声のコンテキストとテキストを入力し、フィルタも拡張もされない5万時間以上の音声でトレーニングする。 GPTと同様に、Voiceboxはコンテキスト内学習を通じてさまざまなタスクを実行できるが、将来的なコンテキストでも条件付けできるため、より柔軟である。 Voiceboxはモノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用することができる。特にVoiceboxは、最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%ワードエラー率)とオーディオの類似性(0.580対0.681)の両方で、20倍高速である。モデルのデモについてはvoicebox.metademolab.comを参照。

関連論文リスト

CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。 CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文参考訳（メタデータ） (2025-05-23T07:55:21Z)
Zero-Shot vs. Few-Shot Multi-Speaker TTS Using Pre-trained Czech SpeechT5 Model [3.462371782084948]
対象話者のデータのうち1分だけを用いて,任意の話者に対して合成音声を生成することができることを示す。チェコの政治家や有名人に対して、私たちの合成音声の質の高さと類似性を実証することに成功しました。
論文参考訳（メタデータ） (2024-07-24T11:14:06Z)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文参考訳（メタデータ） (2024-07-04T16:49:02Z)
Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。 Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文参考訳（メタデータ） (2023-12-25T22:24:49Z)
TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文参考訳（メタデータ） (2023-12-23T08:45:57Z)
VoiceLDM: Text-to-Speech with Environmental Context [22.29992463094861]
VoiceLDMは、2つの異なる自然言語のプロンプトを正確に追従するオーディオを生成するために設計されたモデルである。事前訓練されたコントラスト言語事前訓練(CLAP)とWhisperを利用することで、VoiceLDMは手動の注釈や書き起こしなしに大量の現実世界のオーディオで訓練される。我々は,VoiceLDMが両入力条件に整合した可塑性音声を生成することができることを示す。
論文参考訳（メタデータ） (2023-09-24T15:20:59Z)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文参考訳（メタデータ） (2023-08-14T01:01:19Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。