論文の概要: VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild
- arxiv url: http://arxiv.org/abs/2403.16973v3
- Date: Fri, 14 Jun 2024 00:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 18:42:49.673557
- Title: VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild
- Title(参考訳): VoiceCraft: 野生でのゼロショット音声編集とテキスト音声編集
- Authors: Puyuan Peng, Po-Yao Huang, Shang-Wen Li, Abdelrahman Mohamed, David Harwath,
- Abstract要約: 本稿では,音声編集とゼロショット音声タスクの両方で最先端のパフォーマンスを実現する,トークンを埋め込んだニューラルネットワークモデルであるVoiceCraftを紹介する。
音声編集タスクでは、ボイスクラフトは自然性の観点から未編集の録音とほとんど区別できない編集された音声を生成する。
ゼロショットTSでは、VALLEや一般的な商用モデルであるXTTS-v2など、従来のSotAモデルよりも優れています。
- 参考スコア(独自算出の注目度): 42.788845796159045
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce VoiceCraft, a token infilling neural codec language model, that achieves state-of-the-art performance on both speech editing and zero-shot text-to-speech (TTS) on audiobooks, internet videos, and podcasts. VoiceCraft employs a Transformer decoder architecture and introduces a token rearrangement procedure that combines causal masking and delayed stacking to enable generation within an existing sequence. On speech editing tasks, VoiceCraft produces edited speech that is nearly indistinguishable from unedited recordings in terms of naturalness, as evaluated by humans; for zero-shot TTS, our model outperforms prior SotA models including VALLE and the popular commercial model XTTS-v2. Crucially, the models are evaluated on challenging and realistic datasets, that consist of diverse accents, speaking styles, recording conditions, and background noise and music, and our model performs consistently well compared to other models and real recordings. In particular, for speech editing evaluation, we introduce a high quality, challenging, and realistic dataset named RealEdit. We encourage readers to listen to the demos at https://jasonppy.github.io/VoiceCraft_web.
- Abstract(参考訳): 我々は、音声ブック、インターネットビデオ、ポッドキャストの音声編集とゼロショットテキスト音声(TTS)の両方で最先端のパフォーマンスを実現する、トークンを埋め込んだニューラルコーデック言語モデルであるVoiceCraftを紹介した。
VoiceCraftはTransformerデコーダアーキテクチャを採用し、因果マスクと遅延スタックを組み合わせたトークン再構成手順を導入し、既存のシーケンス内で生成を可能にする。
音声編集タスクにおいて、VoiceCraftは、人間によって評価された自然性の観点から、未編集録音とほとんど区別できない編集音声を生成する。
重要な点として、これらのモデルは、多様なアクセント、話し方、録音条件、バックグラウンドノイズと音楽からなる、挑戦的で現実的なデータセットに基づいて評価され、我々のモデルは、他のモデルや実際の録音と比較して一貫してよく機能する。
特に、音声編集評価には、RealEditという高品質で挑戦的で現実的なデータセットを導入します。
私たちは読者に対して、https://jasonppy.github.io/VoiceCraft_web.comでデモを聞くように勧めています。
関連論文リスト
- Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models [13.420522975106536]
Takin AudioLLMは、主にTakin TTS、Takin VC、Takin Morphingを含む一連の技術とモデルである。
これらのモデルはゼロショット音声生成が可能であり、実際の人間の音声とほとんど区別できない高品質な音声を生成する。
論文 参考訳(メタデータ) (2024-09-18T17:03:12Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - What all do audio transformer models hear? Probing Acoustic
Representations for Language Delivery and its Structure [64.54208910952651]
オーディオトランスフォーマーモデル mockingjay と wave2vec2.0 を比較した。
音声モデルのテキスト表面、構文、および意味的特徴に対する理解を調査します。
ネイティブ、非ネイティブ、合成、読み取り、自発的な音声データセットの完全な設定でこれを行います。
論文 参考訳(メタデータ) (2021-01-02T06:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。