論文の概要: Non-Parallel Voice Conversion for ASR Augmentation
- arxiv url: http://arxiv.org/abs/2209.06987v1
- Date: Thu, 15 Sep 2022 00:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:47:38.642944
- Title: Non-Parallel Voice Conversion for ASR Augmentation
- Title(参考訳): ASR増強のための非パラレル音声変換
- Authors: Gary Wang, Andrew Rosenberg, Bhuvana Ramabhadran, Fadi Biadsy, Yinghui
Huang, Jesse Emond, Pedro Moreno Mengibar
- Abstract要約: 音声変換は、ASR性能を改善するためのデータ拡張手法として使用できる。
多くの話者を含むにもかかわらず、話者の多様性はASRの品質に制限される可能性がある。
- 参考スコア(独自算出の注目度): 23.95732033698818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) needs to be robust to speaker differences.
Voice Conversion (VC) modifies speaker characteristics of input speech. This is
an attractive feature for ASR data augmentation. In this paper, we demonstrate
that voice conversion can be used as a data augmentation technique to improve
ASR performance, even on LibriSpeech, which contains 2,456 speakers. For ASR
augmentation, it is necessary that the VC model be robust to a wide range of
input speech. This motivates the use of a non-autoregressive, non-parallel VC
model, and the use of a pretrained ASR encoder within the VC model. This work
suggests that despite including many speakers, speaker diversity may remain a
limitation to ASR quality. Finally, interrogation of our VC performance has
provided useful metrics for objective evaluation of VC quality.
- Abstract(参考訳): 音声認識(ASR)は話者差に頑健である必要がある。
音声変換(VC)は入力音声の話者特性を変更する。
これは、ASRデータ拡張の魅力的な機能である。
本稿では,2,456 人の話者を含む LibriSpeech 上でも,データ拡張手法として音声変換がASR の性能向上に有効であることを示す。
ASR強化には、VCモデルが幅広い入力音声に対して堅牢であることが必要である。
これは、非自己回帰的、非並列VCモデルの使用と、VCモデル内で事前訓練されたASRエンコーダの使用を動機付けている。
この研究は、多くの話者を含むにもかかわらず、話者の多様性がASRの品質に制限されることを示唆している。
最後に、VCのパフォーマンスの検査は、VC品質の客観的評価に有用な指標を提供している。
関連論文リスト
- SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross
Attention [24.842378497026154]
SEF-VCは、話者埋め込み自由音声変換モデルである。
話者の音色を、強力な位置非依存のクロスアテンション機構を通じて参照音声から学習し、組み込む。
HuBERTセマンティックトークンからの波形を非自己回帰的に再構成する。
論文 参考訳(メタデータ) (2023-12-14T06:26:55Z) - Iteratively Improving Speech Recognition and Voice Conversion [10.514009693947227]
本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。
次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。
改良されたASRモデルをVCモデルと逆転モデルの訓練に反復的に活用することにより、両モデルの改善を実験的に示す。
論文 参考訳(メタデータ) (2023-05-24T11:45:42Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - FastVC: Fast Voice Conversion with non-parallel data [13.12834490248018]
本稿では、高速音声変換(VC)のためのエンドツーエンドモデルであるFastVCを紹介する。
FastVCは、非並列データでトレーニングされた条件付きAutoEncoder(AE)に基づいており、アノテーションは一切必要としない。
提案されたモデルの単純な構造にもかかわらず、自然性の観点から見ると、VC Challenge 2020の言語横断タスクのベースラインを上回っている。
論文 参考訳(メタデータ) (2020-10-08T18:05:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。