Fugu-MT 論文翻訳(概要): S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations

論文の概要: S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations

arxiv url: http://arxiv.org/abs/2110.06280v1
Date: Tue, 12 Oct 2021 19:01:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-15 08:15:19.663644
Title: S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations
Title（参考訳）: S3PRL-VC:自己教師型音声表現を用いたオープンソースの音声変換フレームワーク
Authors: Wen-Chin Huang, Shu-Wen Yang, Tomoki Hayashi, Hung-Yi Lee, Shinji Watanabe, Tomoki Toda
Abstract要約: 本稿では,S3PRLツールキットに基づくオープンソースの音声変換フレームワークであるS3PRL-VCを紹介する。本稿では,VCC 2020における2つのタスクのベンチマークにより,一連の詳細な分析を行う。 S3Rは、A2O設定におけるVCC 2020トップシステムと類似性、およびS3RベースのA2AVCにおける最先端技術に匹敵することを示している。
参考スコア（独自算出の注目度）: 124.2620985250939
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces S3PRL-VC, an open-source voice conversion (VC) framework based on the S3PRL toolkit. In the context of recognition-synthesis VC, self-supervised speech representation (S3R) is valuable in its potential to replace the expensive supervised representation adopted by state-of-the-art VC systems. Moreover, we claim that VC is a good probing task for S3R analysis. In this work, we provide a series of in-depth analyses by benchmarking on the two tasks in VCC2020, namely intra-/cross-lingual any-to-one (A2O) VC, as well as an any-to-any (A2A) setting. We also provide comparisons between not only different S3Rs but also top systems in VCC2020 with supervised representations. Systematic objective and subjective evaluation were conducted, and we show that S3R is comparable with VCC2020 top systems in the A2O setting in terms of similarity, and achieves state-of-the-art in S3R-based A2A VC. We believe the extensive analysis, as well as the toolkit itself, contribute to not only the S3R community but also the VC community. The codebase is now open-sourced.
Abstract（参考訳）: 本稿では,S3PRLツールキットに基づくオープンソースの音声変換(VC)フレームワークであるS3PRL-VCを紹介する。認識合成VCの文脈では、自己教師付き音声表現(S3R)は最先端のVCシステムで採用される高価な教師付き表現に取って代わる可能性がある。さらに、VCはS3R分析の優れた探索タスクであると主張する。本稿では,VCC2020における2つのタスク,すなわち,A2OVC内/言語間ノンツーワンVCのベンチマークと,A2A設定の詳細な分析を行う。また、異なるS3Rだけでなく、VCC2020の上位システムと教師付き表現との比較も提供する。本稿では,S3RをベースとしたA2AVCにおいて,S3Rは類似性の観点からVCC2020トップシステムと同等であり,最先端のA2AVCを実現していることを示す。私たちは、この広範な分析とツールキット自体が、S3RコミュニティだけでなくVCコミュニティにも貢献していると信じています。コードベースは現在オープンソース化されている。

関連論文リスト

SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
CTCモデルであるSVTRv2を提案する。 SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
論文参考訳（メタデータ） (2024-11-24T14:21:35Z)
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。 3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文参考訳（メタデータ） (2024-11-04T16:46:53Z)
Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization [51.33923845954759]
3Dビジュアルグラウンド(3DVG)と3Dキャプション(3DDC)は、様々な3Dアプリケーションにおいて2つの重要なタスクである。本稿では,これら2つの異なる,しかし密接に関連するタスクを協調的に解決する統合フレームワークである3DGCTRを提案する。実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として使用する。
論文参考訳（メタデータ） (2024-04-17T04:46:27Z)
RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech Recognition [43.081758770899235]
C++で実装された研究指向の汎用S2SデコーダであるRASR2を提案する。さまざまなS2Sモデル、言語モデル、ラベル単位/トポロジ、ニューラルネットワークアーキテクチャに対して、強力な柔軟性/互換性を提供する。オープンおよびクローズドボキャブラリーの両方のシナリオに対して,検索モードや設定の充実したサポートを備えた汎用検索フレームワークをベースとした,効率的なデコーディングを提供する。
論文参考訳（メタデータ） (2023-05-28T17:48:48Z)
Iteratively Improving Speech Recognition and Voice Conversion [10.514009693947227]
本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。改良されたASRモデルをVCモデルと逆転モデルの訓練に反復的に活用することにより、両モデルの改善を実験的に示す。
論文参考訳（メタデータ） (2023-05-24T11:45:42Z)
Self-supervised Learning by View Synthesis [62.27092994474443]
本稿では,視覚変換のための自己教師型学習フレームワークであるビュー合成オートエンコーダ(VSA)について述べる。各イテレーションにおいて、VSAへの入力は3Dオブジェクトの1つのビュー(または複数のビュー)であり、出力は別のターゲットポーズで合成された画像である。
論文参考訳（メタデータ） (2023-04-22T06:12:13Z)
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-10T02:55:52Z)
Non-Parallel Voice Conversion for ASR Augmentation [23.95732033698818]
音声変換は、ASR性能を改善するためのデータ拡張手法として使用できる。多くの話者を含むにもかかわらず、話者の多様性はASRの品質に制限される可能性がある。
論文参考訳（メタデータ） (2022-09-15T00:40:35Z)
A Comparative Study of Self-supervised Speech Representation Based Voice Conversion [47.250866153881645]
本稿では、自己教師型音声表現(S3R)に基づく音声変換(VC)の大規模比較研究について述べる。モデルタイプ,多言語性,監督など,S3RベースのVCについて検討した。また,k-meansによる減量後処理の効果について検討し,A2A設定でどのように改善するかを示した。
論文参考訳（メタデータ） (2022-07-10T01:02:22Z)
Assem-VC: Realistic Voice Conversion by Assembling Modern Speech Synthesis Techniques [3.3946853660795893]
本稿では,非並列音声変換システムAssem-VCを提案する。本稿では、VCにおけるGTA微調整についても紹介し、出力の品質と話者類似性を大幅に改善する。
論文参考訳（メタデータ） (2021-04-02T08:18:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。