論文の概要: uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models
- arxiv url: http://arxiv.org/abs/2310.00900v1
- Date: Mon, 2 Oct 2023 04:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 23:21:35.746788
- Title: uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models
- Title(参考訳): uSee:条件付き拡散モデルによる統一音声強調と編集
- Authors: Muqiao Yang, Chunlei Zhang, Yong Xu, Zhongweiyang Xu, Heming Wang,
Bhiksha Raj, Dong Yu
- Abstract要約: 本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 57.71199494492223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement aims to improve the quality of speech signals in terms of
quality and intelligibility, and speech editing refers to the process of
editing the speech according to specific user needs. In this paper, we propose
a Unified Speech Enhancement and Editing (uSee) model with conditional
diffusion models to handle various tasks at the same time in a generative
manner. Specifically, by providing multiple types of conditions including
self-supervised learning embeddings and proper text prompts to the score-based
diffusion model, we can enable controllable generation of the unified speech
enhancement and editing model to perform corresponding actions on the source
speech. Our experiments show that our proposed uSee model can achieve superior
performance in both speech denoising and dereverberation compared to other
related generative speech enhancement models, and can perform speech editing
given desired environmental sound text description, signal-to-noise ratios
(SNR), and room impulse responses (RIR). Demos of the generated speech are
available at https://muqiaoy.github.io/usee.
- Abstract(参考訳): 音声強調は、品質と知性の観点から音声信号の品質を向上させることを目的としており、音声編集とは、特定のユーザのニーズに応じて音声を編集する過程を指す。
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
具体的には、自己教師型学習埋め込みや適切なテキストプロンプトを含む複数の条件をスコアベース拡散モデルに提供することにより、統合された音声強調・編集モデルの制御可能な生成を可能にし、ソース音声に対して対応する動作を行うことができる。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の両面で優れた性能を示し,所望の環境音のテキスト記述,SNR,室内インパルス応答(RIR)の音声編集を行うことができた。
生成された音声のデモはhttps://muqiaoy.github.io/useeで見ることができる。
関連論文リスト
- Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments [0.2916558661202724]
音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。
クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。
以上の結果から,音声認識と音声表現の統合により,対向条件下ではより堅牢なモデルが得られる可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-07T18:39:59Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Cross-Utterance Conditioned VAE for Speech Generation [27.5887600344053]
本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。
CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T06:48:41Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。
LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文 参考訳(メタデータ) (2023-04-23T21:05:33Z) - Fine-grained Noise Control for Multispeaker Speech Synthesis [3.449700218265025]
テキスト音声モデル(TTS)は、典型的には、内容、話者、韻律などの音声属性を非絡み合い表現に分解する。
近年の課題は, 音響条件を的確にモデル化することであり, 主要な音声要因を解消することである。
論文 参考訳(メタデータ) (2022-04-11T13:13:55Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。