論文の概要: S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised
Speech Representations
- arxiv url: http://arxiv.org/abs/2110.06280v1
- Date: Tue, 12 Oct 2021 19:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 08:15:19.663644
- Title: S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised
Speech Representations
- Title(参考訳): S3PRL-VC:自己教師型音声表現を用いたオープンソースの音声変換フレームワーク
- Authors: Wen-Chin Huang, Shu-Wen Yang, Tomoki Hayashi, Hung-Yi Lee, Shinji
Watanabe, Tomoki Toda
- Abstract要約: 本稿では,S3PRLツールキットに基づくオープンソースの音声変換フレームワークであるS3PRL-VCを紹介する。
本稿では,VCC 2020における2つのタスクのベンチマークにより,一連の詳細な分析を行う。
S3Rは、A2O設定におけるVCC 2020トップシステムと類似性、およびS3RベースのA2AVCにおける最先端技術に匹敵することを示している。
- 参考スコア(独自算出の注目度): 124.2620985250939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces S3PRL-VC, an open-source voice conversion (VC)
framework based on the S3PRL toolkit. In the context of recognition-synthesis
VC, self-supervised speech representation (S3R) is valuable in its potential to
replace the expensive supervised representation adopted by state-of-the-art VC
systems. Moreover, we claim that VC is a good probing task for S3R analysis. In
this work, we provide a series of in-depth analyses by benchmarking on the two
tasks in VCC2020, namely intra-/cross-lingual any-to-one (A2O) VC, as well as
an any-to-any (A2A) setting. We also provide comparisons between not only
different S3Rs but also top systems in VCC2020 with supervised representations.
Systematic objective and subjective evaluation were conducted, and we show that
S3R is comparable with VCC2020 top systems in the A2O setting in terms of
similarity, and achieves state-of-the-art in S3R-based A2A VC. We believe the
extensive analysis, as well as the toolkit itself, contribute to not only the
S3R community but also the VC community. The codebase is now open-sourced.
- Abstract(参考訳): 本稿では,S3PRLツールキットに基づくオープンソースの音声変換(VC)フレームワークであるS3PRL-VCを紹介する。
認識合成VCの文脈では、自己教師付き音声表現(S3R)は最先端のVCシステムで採用される高価な教師付き表現に取って代わる可能性がある。
さらに、VCはS3R分析の優れた探索タスクであると主張する。
本稿では,VCC2020における2つのタスク,すなわち,A2OVC内/言語間ノンツーワンVCのベンチマークと,A2A設定の詳細な分析を行う。
また、異なるS3Rだけでなく、VCC2020の上位システムと教師付き表現との比較も提供する。
本稿では,S3RをベースとしたA2AVCにおいて,S3Rは類似性の観点からVCC2020トップシステムと同等であり,最先端のA2AVCを実現していることを示す。
私たちは、この広範な分析とツールキット自体が、S3RコミュニティだけでなくVCコミュニティにも貢献していると信じています。
コードベースは現在オープンソース化されている。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition [68.70787870401159]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech
Recognition [43.081758770899235]
C++で実装された研究指向の汎用S2SデコーダであるRASR2を提案する。
さまざまなS2Sモデル、言語モデル、ラベル単位/トポロジ、ニューラルネットワークアーキテクチャに対して、強力な柔軟性/互換性を提供する。
オープンおよびクローズドボキャブラリーの両方のシナリオに対して,検索モードや設定の充実したサポートを備えた汎用検索フレームワークをベースとした,効率的なデコーディングを提供する。
論文 参考訳(メタデータ) (2023-05-28T17:48:48Z) - Iteratively Improving Speech Recognition and Voice Conversion [10.514009693947227]
本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。
次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。
改良されたASRモデルをVCモデルと逆転モデルの訓練に反復的に活用することにより、両モデルの改善を実験的に示す。
論文 参考訳(メタデータ) (2023-05-24T11:45:42Z) - Self-supervised Learning by View Synthesis [62.27092994474443]
本稿では,視覚変換のための自己教師型学習フレームワークであるビュー合成オートエンコーダ(VSA)について述べる。
各イテレーションにおいて、VSAへの入力は3Dオブジェクトの1つのビュー(または複数のビュー)であり、出力は別のターゲットポーズで合成された画像である。
論文 参考訳(メタデータ) (2023-04-22T06:12:13Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Non-Parallel Voice Conversion for ASR Augmentation [23.95732033698818]
音声変換は、ASR性能を改善するためのデータ拡張手法として使用できる。
多くの話者を含むにもかかわらず、話者の多様性はASRの品質に制限される可能性がある。
論文 参考訳(メタデータ) (2022-09-15T00:40:35Z) - A Comparative Study of Self-supervised Speech Representation Based Voice
Conversion [47.250866153881645]
本稿では、自己教師型音声表現(S3R)に基づく音声変換(VC)の大規模比較研究について述べる。
モデルタイプ,多言語性,監督など,S3RベースのVCについて検討した。
また,k-meansによる減量後処理の効果について検討し,A2A設定でどのように改善するかを示した。
論文 参考訳(メタデータ) (2022-07-10T01:02:22Z) - Assem-VC: Realistic Voice Conversion by Assembling Modern Speech
Synthesis Techniques [3.3946853660795893]
本稿では,非並列音声変換システムAssem-VCを提案する。
本稿では、VCにおけるGTA微調整についても紹介し、出力の品質と話者類似性を大幅に改善する。
論文 参考訳(メタデータ) (2021-04-02T08:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。