論文の概要: SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
- arxiv url: http://arxiv.org/abs/2308.06873v2
- Date: Tue, 25 Jun 2024 18:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 19:53:52.981762
- Title: SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
- Title(参考訳): SpeechX: 音声変換器としてのニューラルコーデック言語モデル
- Authors: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka,
- Abstract要約: SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
- 参考スコア(独自算出の注目度): 57.82364057872905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX's efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.
- Abstract(参考訳): 音声テキストプロンプトに基づく生成音声モデルの最近の進歩は、高品質なゼロショット音声合成のような驚くべき革新を可能にしている。
しかし、既存のモデルでは、入力音声の変換や、有害な音響条件下での音声の処理を含む多様な音声テキスト音声生成タスクの処理に制限が課されている。
本稿では,音声生成モデルであるSpeechXについて紹介する。
SpeechXは、ニューラルコーデック言語モデリングとタスク依存プロンプトを用いたマルチタスク学習を組み合わせることで、統一的で拡張可能なモデリングを可能にし、音声強調および変換タスクにおけるテキスト入力を活用する一貫した方法を提供する。
実験結果は、ゼロショットTS、ノイズ抑制、ターゲット話者抽出、音声除去、バックグラウンドノイズの有無にかかわらず音声編集など、様々なタスクにおけるSpeechXの有効性を示し、タスク間の特化モデルと同等または優れたパフォーマンスを達成する。
デモサンプルについてはhttps://aka.ms/speechxを参照。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild [42.788845796159045]
本稿では,音声編集とゼロショット音声タスクの両方で最先端のパフォーマンスを実現する,トークンを埋め込んだニューラルネットワークモデルであるVoiceCraftを紹介する。
音声編集タスクでは、ボイスクラフトは自然性の観点から未編集の録音とほとんど区別できない編集された音声を生成する。
ゼロショットTSでは、VALLEや一般的な商用モデルであるXTTS-v2など、従来のSotAモデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-25T17:38:32Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。