論文の概要: The AS-NU System for the M2VoC Challenge
- arxiv url: http://arxiv.org/abs/2104.03009v1
- Date: Wed, 7 Apr 2021 09:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:31:49.103127
- Title: The AS-NU System for the M2VoC Challenge
- Title(参考訳): M2VoCチャレンジのためのAS-NUシステム
- Authors: Cheng-Hung Hu, Yi-Chiao Wu, Wen-Chin Huang, Yu-Huai Peng, Yu-Wen Chen,
Pin-Jui Ku, Tomoki Toda, Yu Tsao, Hsin-Min Wang
- Abstract要約: M2VoC(MultiSpeaker Multi-Style Voice Cloning Challenge)における2トラックのAS-NUシステムについて述べる。
第1トラックは音声クローニングに100件のターゲット発話を使用することにフォーカスし、第2トラックは音声クローニングにわずか5件のターゲット発話を使用することにフォーカスした。
第2トラックにおけるデータ不足のため,ttsシステムの訓練データから,目標話者に最も近い話者を選択し,話者の発話と与えられた5つの目標発話を用いてモデルを微調整した。
- 参考スコア(独自算出の注目度): 49.12981125333458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the AS-NU systems for two tracks in MultiSpeaker
Multi-Style Voice Cloning Challenge (M2VoC). The first track focuses on using a
small number of 100 target utterances for voice cloning, while the second track
focuses on using only 5 target utterances for voice cloning. Due to the serious
lack of data in the second track, we selected the speaker most similar to the
target speaker from the training data of the TTS system, and used the speaker's
utterances and the given 5 target utterances to fine-tune our model. The
evaluation results show that our systems on the two tracks perform similarly in
terms of quality, but there is still a clear gap between the similarity score
of the second track and the similarity score of the first track.
- Abstract(参考訳): 本稿では,M2VoC(MultiSpeaker Multi-Style Voice Cloning Challenge)における2トラックのAS-NUシステムについて述べる。
第1トラックは、音声クローニングに少数のターゲット発話を使用することに焦点を当て、第2トラックは、音声クローニングにわずか5つのターゲット発話を使用することに焦点を当てている。
第2トラックにおけるデータ不足のため,ttsシステムの訓練データから,目標話者に最も近い話者を選択し,話者の発話と与えられた5つの目標発話を用いてモデルを微調整した。
評価結果から,2トラック間の類似点と1トラック間の類似点との間には,依然として明らかなギャップがあることがわかった。
関連論文リスト
- The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge [12.862628838633396]
本稿では,ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge 2024(ICAGC)に提出されたNPU-HWCシステムについて述べる。
本システムは,トラック1の音声生成装置とトラック2の音声生成装置の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2024-10-31T10:58:59Z) - A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge [16.813582262700415]
この課題は,音声クローニング機能を備えた多言語多言語Indic Text-to-Speechシステムの構築である。
このシステムは、課題データを用いて訓練され、ターゲットスピーカー上で数発の音声クローンを行うための微調整が行われた。
論文 参考訳(メタデータ) (2024-06-22T10:49:36Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。
その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-17T14:31:55Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - DNN Speaker Tracking with Embeddings [0.0]
埋め込み型話者追跡手法を提案する。
我々の設計は、典型的な話者検証PLDAを模倣した畳み込みニューラルネットワークに基づいている。
ベースラインシステムを話者追跡と類似させるため、非ターゲット話者を録音に追加した。
論文 参考訳(メタデータ) (2020-07-13T18:40:14Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。