論文の概要: VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing
- arxiv url: http://arxiv.org/abs/2404.06674v2
- Date: Thu, 11 Apr 2024 17:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 12:39:58.776872
- Title: VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing
- Title(参考訳): VoiceShop: アイデンティティを保存するゼロショット音声編集のための統一音声合成フレームワーク
- Authors: Philip Anastassiou, Zhenyu Tang, Kainan Peng, Dongya Jia, Jiaxin Li, Ming Tu, Yuping Wang, Yuxuan Wang, Mingbo Ma,
- Abstract要約: 本稿では,新しい音声合成フレームワークであるVoiceShopを紹介する。
年齢、性別、アクセント、音声スタイルなど、音声の複数の属性を、1つの前方通過で変更することができる。
変換効果の大きさは弱く、分布外話者にはゼロショット能力がない、あるいは合成された出力は望ましくない音色漏れを示す。
- 参考スコア(独自算出の注目度): 20.446399170808682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VoiceShop, a novel speech-to-speech framework that can modify multiple attributes of speech, such as age, gender, accent, and speech style, in a single forward pass while preserving the input speaker's timbre. Previous works have been constrained to specialized models that can only edit these attributes individually and suffer from the following pitfalls: the magnitude of the conversion effect is weak, there is no zero-shot capability for out-of-distribution speakers, or the synthesized outputs exhibit undesirable timbre leakage. Our work proposes solutions for each of these issues in a simple modular framework based on a conditional diffusion backbone model with optional normalizing flow-based and sequence-to-sequence speaker attribute-editing modules, whose components can be combined or removed during inference to meet a wide array of tasks without additional model finetuning. Audio samples are available at \url{https://voiceshopai.github.io}.
- Abstract(参考訳): 入力話者の音色を保ちながら, 年齢, 性別, アクセント, 音声スタイルなどの音声の複数の属性を1つの前方通過で修正できる, 音声音声合成フレームワークであるVoiceShopを提案する。
変換効果の大きさは弱く、分布外話者にはゼロショット能力がない、あるいは合成された出力は望ましくない音色リークを示す。
本研究は,フローベースおよびシーケンスツーシーケンスの話者属性編集モジュールを任意に正規化する条件付き拡散バックボーンモデルに基づく,シンプルなモジュラー・フレームワークによる各問題に対する解決策を提案する。
オーディオサンプルは \url{https://voiceshopai.github.io} で入手できる。
関連論文リスト
- Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models [3.1511847280063696]
音声可能な基礎モデルは、適切なプロンプトを用いて自動音声認識以外のタスクを実行することができる。
音声プロンプト付き大規模言語モデルの開発により、さらに大きな制御オプションが生まれる可能性がある。
この柔軟性により、システムはモデル制御の敵攻撃の影響を受けやすいことが実証された。
論文 参考訳(メタデータ) (2024-07-05T13:04:31Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - FastPitchFormant: Source-filter based Decomposed Modeling for Speech
Synthesis [6.509758931804479]
ソースフィルタ理論に基づいて設計したフィードフォワード変換器を用いたTSモデルを提案する。
FastPitchFormantには、テキストと音響機能を並列に扱うユニークな構造がある。
論文 参考訳(メタデータ) (2021-06-29T07:06:42Z) - UniTTS: Residual Learning of Unified Embedding Space for Speech Style
Control [2.3526458707956643]
干渉を回避し、重なり合うスタイル属性を学習し、制御する新しい高忠実表現型音声モデルUniTTSを提案する。
UniTTSは、属性の適用前後の音素埋め込み間の残差によって、単一の統合埋め込み空間における複数のスタイル属性を表す。
提案手法は,話者IDや感情などのクリーンな分離が難しい複数の属性を制御するのに有効である。
論文 参考訳(メタデータ) (2021-06-21T15:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。