論文の概要: Automatic Speech Disentanglement for Voice Conversion using Rank Module
and Speech Augmentation
- arxiv url: http://arxiv.org/abs/2306.12259v1
- Date: Wed, 21 Jun 2023 13:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 13:19:39.467561
- Title: Automatic Speech Disentanglement for Voice Conversion using Rank Module
and Speech Augmentation
- Title(参考訳): ランクモジュールと音声拡張を用いた音声変換のための音声自動区切り
- Authors: Zhonghua Liu, Shijun Wang, Ning Chen
- Abstract要約: 音声変換(VC)は、ソース音声の音声を、ソースの内容を維持しながらターゲットの音声に変換する。
本稿では,2つの拡張関数のみを用いて,音声を4成分に自動的に切り離すVCモデルを提案する。
- 参考スコア(独自算出の注目度): 4.961389445237138
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Voice Conversion (VC) converts the voice of a source speech to that of a
target while maintaining the source's content. Speech can be mainly decomposed
into four components: content, timbre, rhythm and pitch. Unfortunately, most
related works only take into account content and timbre, which results in less
natural speech. Some recent works are able to disentangle speech into several
components, but they require laborious bottleneck tuning or various
hand-crafted features, each assumed to contain disentangled speech information.
In this paper, we propose a VC model that can automatically disentangle speech
into four components using only two augmentation functions, without the
requirement of multiple hand-crafted features or laborious bottleneck tuning.
The proposed model is straightforward yet efficient, and the empirical results
demonstrate that our model can achieve a better performance than the baseline,
regarding disentanglement effectiveness and speech naturalness.
- Abstract(参考訳): 音声変換(VC)は、ソース音声の音声を、ソースの内容を維持しながらターゲットの音声に変換する。
音声は主に、内容、音色、リズム、ピッチの4つの構成要素に分けられる。
残念なことに、ほとんどの関連作品は、コンテンツと音色のみを考慮に入れており、その結果、自然言語は少ない。
最近の作品では、音声をいくつかの要素に分解することができるが、それらは複雑なボトルネックチューニングや様々な手作りの特徴を必要とする。
本稿では,複数の手作り特徴や手間のかかるボトルネックチューニングを必要とせず,2つの拡張関数のみを用いて,音声を4つのコンポーネントに自動的に切り離すVCモデルを提案する。
提案モデルは単純かつ効率的であり, 実験結果から, 連接効果と音声自然性に関して, ベースラインよりも優れた性能が得られることが示された。
関連論文リスト
- SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice
Conversion [63.346825713704625]
テキスト音声変換(TTS, Text-to-Speech)と音声変換(VC)は2つの異なるタスクであり, 音質の異なる音質で音声を合成することを目的としている。
本稿では,TSとVCを統合フレームワークに初めて導入するUnifySpeechを提案する。
論文 参考訳(メタデータ) (2023-01-10T06:06:57Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Adversarially learning disentangled speech representations for robust
multi-factor voice conversion [39.91395314356084]
本稿では,敵対的学習に基づくアンタングル型音声表現学習フレームワークを提案する。
内容、音色、リズム、ピッチを特徴付ける4つの音声表現を抽出し、さらに混乱させる。
実験の結果,提案手法はVCの頑健性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-01-30T08:29:55Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。