論文の概要: A Comparative Study of Self-supervised Speech Representation Based Voice
Conversion
- arxiv url: http://arxiv.org/abs/2207.04356v1
- Date: Sun, 10 Jul 2022 01:02:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 08:45:11.517351
- Title: A Comparative Study of Self-supervised Speech Representation Based Voice
Conversion
- Title(参考訳): 自己教師付き音声表現に基づく音声変換の比較検討
- Authors: Wen-Chin Huang, Shu-Wen Yang, Tomoki Hayashi, Tomoki Toda
- Abstract要約: 本稿では、自己教師型音声表現(S3R)に基づく音声変換(VC)の大規模比較研究について述べる。
モデルタイプ,多言語性,監督など,S3RベースのVCについて検討した。
また,k-meansによる減量後処理の効果について検討し,A2A設定でどのように改善するかを示した。
- 参考スコア(独自算出の注目度): 47.250866153881645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a large-scale comparative study of self-supervised speech
representation (S3R)-based voice conversion (VC). In the context of
recognition-synthesis VC, S3Rs are attractive owing to their potential to
replace expensive supervised representations such as phonetic posteriorgrams
(PPGs), which are commonly adopted by state-of-the-art VC systems. Using
S3PRL-VC, an open-source VC software we previously developed, we provide a
series of in-depth objective and subjective analyses under three VC settings:
intra-/cross-lingual any-to-one (A2O) and any-to-any (A2A) VC, using the voice
conversion challenge 2020 (VCC2020) dataset. We investigated S3R-based VC in
various aspects, including model type, multilinguality, and supervision. We
also studied the effect of a post-discretization process with k-means
clustering and showed how it improves in the A2A setting. Finally, the
comparison with state-of-the-art VC systems demonstrates the competitiveness of
S3R-based VC and also sheds light on the possible improving directions.
- Abstract(参考訳): 本稿では,自己教師型音声表現(S3R)に基づく音声変換(VC)の大規模比較研究を行う。
認識合成VCの文脈では、S3Rは、現在最先端のVCシステムで一般的に採用されている音声後部グラフ(PPG)のような高価な教師付き表現を置き換える可能性があるため、魅力的である。
これまでに開発したオープンソースのVCソフトウェアであるS3PRL-VCを使用して、音声変換チャレンジ2020(VCC2020)データセットを使用して、3つのVC設定に基づいて、詳細な目標と主観的な分析を行う。
モデルタイプ,多言語性,監督など,S3RベースのVCについて検討した。
また,k-meansクラスタリングを用いたポストディスクリタイズ処理の効果について検討し,a2a設定における改善効果を示した。
最後に、最先端のVCシステムとの比較は、S3RベースのVCの競争力を示し、また、改善可能な方向性に光を当てる。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Iteratively Improving Speech Recognition and Voice Conversion [10.514009693947227]
本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。
次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。
改良されたASRモデルをVCモデルと逆転モデルの訓練に反復的に活用することにより、両モデルの改善を実験的に示す。
論文 参考訳(メタデータ) (2023-05-24T11:45:42Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Conditional Deep Hierarchical Variational Autoencoder for Voice
Conversion [5.538544897623972]
変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。
本稿では, モデル表現性の増加がVAE-VCに与える影響について検討する。
論文 参考訳(メタデータ) (2021-12-06T05:54:11Z) - S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised
Speech Representations [124.2620985250939]
本稿では,S3PRLツールキットに基づくオープンソースの音声変換フレームワークであるS3PRL-VCを紹介する。
本稿では,VCC 2020における2つのタスクのベンチマークにより,一連の詳細な分析を行う。
S3Rは、A2O設定におけるVCC 2020トップシステムと類似性、およびS3RベースのA2AVCにおける最先端技術に匹敵することを示している。
論文 参考訳(メタデータ) (2021-10-12T19:01:52Z) - Assem-VC: Realistic Voice Conversion by Assembling Modern Speech
Synthesis Techniques [3.3946853660795893]
本稿では,非並列音声変換システムAssem-VCを提案する。
本稿では、VCにおけるGTA微調整についても紹介し、出力の品質と話者類似性を大幅に改善する。
論文 参考訳(メタデータ) (2021-04-02T08:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。