論文の概要: A Comparative Study of Voice Conversion Models with Large-Scale Speech
and Singing Data: The T13 Systems for the Singing Voice Conversion Challenge
2023
- arxiv url: http://arxiv.org/abs/2310.05203v1
- Date: Sun, 8 Oct 2023 15:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:35:44.987463
- Title: A Comparative Study of Voice Conversion Models with Large-Scale Speech
and Singing Data: The T13 Systems for the Singing Voice Conversion Challenge
2023
- Title(参考訳): 大規模音声・歌唱データを用いた声質変換モデルの比較研究--歌声変換チャレンジ2023のためのt13システム
- Authors: Ryuichi Yamamoto, Reo Yoneyama, Lester Phillip Violeta, Wen-Chin
Huang, Tomoki Toda
- Abstract要約: 本稿では,歌唱音声変換チャレンジ(SVCC)2023について述べる。
ドメイン内およびドメイン内の両方の英語歌唱音声変換タスクに対して、自己教師付き学習に基づく表現を用いた認識合成アプローチを採用する。
SVCC 2023 による大規模リスニング試験の結果,我々のT13 システムは,難易度の高いクロスドメイン SVC に対して,競合自然性および話者類似性を実現していることがわかった。
- 参考スコア(独自算出の注目度): 40.48355334150661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our systems (denoted as T13) for the singing voice
conversion challenge (SVCC) 2023. For both in-domain and cross-domain English
singing voice conversion (SVC) tasks (Task 1 and Task 2), we adopt a
recognition-synthesis approach with self-supervised learning-based
representation. To achieve data-efficient SVC with a limited amount of target
singer/speaker's data (150 to 160 utterances for SVCC 2023), we first train a
diffusion-based any-to-any voice conversion model using publicly available
large-scale 750 hours of speech and singing data. Then, we finetune the model
for each target singer/speaker of Task 1 and Task 2. Large-scale listening
tests conducted by SVCC 2023 show that our T13 system achieves competitive
naturalness and speaker similarity for the harder cross-domain SVC (Task 2),
which implies the generalization ability of our proposed method. Our objective
evaluation results show that using large datasets is particularly beneficial
for cross-domain SVC.
- Abstract(参考訳): 本稿では,歌唱音声変換チャレンジ(SVCC)2023のためのシステム(T13)について述べる。
ドメイン内およびクロスドメインの英語歌唱音声変換(svc)タスク(タスク1とタスク2)に対して,自己教師付き学習に基づく認識合成アプローチを採用する。
SVCC 2023に対して150~160発の発話を対象とするデータ効率の高いSVCを実現するために,まず,750時間に及ぶ大規模音声・歌唱データを用いて拡散型音声変換モデルを訓練する。
そして、タスク1とタスク2の各ターゲットシンガー/スピーカーのモデルを微調整する。
SVCC 2023 による大規模リスニング試験の結果,提案手法の一般化能力を示す,より難しいクロスドメイン SVC (Task 2) に対して,我々のT13 システムは競合自然性および話者類似性を達成していることがわかった。
評価結果から,大規模データセットの利用はクロスドメインSVCに特に有用であることが示唆された。
関連論文リスト
- SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-09T08:34:01Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - The GUA-Speech System Description for CNVSRC Challenge 2023 [8.5257557043542]
本研究では,中国連続視覚音声認識チャレンジ(CNVSRC)2023におけるタスク1単一話者視覚音声認識(VSR)固定トラックについて述べる。
我々は、中間接続性時間分類(Inter CTC)残基を用いて、我々のモデルにおけるCTCの条件独立仮定を緩和する。
また、バイトランスフォーマーデコーダを使用して、モデルが過去と未来の両方のコンテキスト情報をキャプチャできるようにする。
論文 参考訳(メタデータ) (2023-12-12T13:35:33Z) - The Singing Voice Conversion Challenge 2023 [35.270322663776646]
今年私たちは、歌声変換(SVC)に焦点を移しました。
新しいデータベースは、ドメイン内およびドメイン間SVCという2つのタスクのために構築された。
両課題において,トップシステムによって人間レベルの自然性が達成されたにもかかわらず,目標話者ほど類似度スコアが得られなかった。
論文 参考訳(メタデータ) (2023-06-26T05:04:58Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - On the pragmatism of using binary classifiers over data intensive neural
network classifiers for detection of COVID-19 from voice [34.553128768223615]
音声からCOVID-19を検出するには、カスタムメイドの非標準機能や複雑なニューラルネットワーク分類器を必要としない。
臨床現場で収集・校正された人為的なデータセットからこれを実証する。
論文 参考訳(メタデータ) (2022-04-11T00:19:14Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。