論文の概要: Towards Cross-speaker Reading Style Transfer on Audiobook Dataset
- arxiv url: http://arxiv.org/abs/2208.05359v1
- Date: Wed, 10 Aug 2022 14:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 13:13:59.957110
- Title: Towards Cross-speaker Reading Style Transfer on Audiobook Dataset
- Title(参考訳): オーディオブックデータセットにおけるクロススピーカー読解スタイル転送に向けて
- Authors: Xiang Li, Changhe Song, Xianhao Wei, Zhiyong Wu, Jia Jia, Helen Meng
- Abstract要約: 話者間移動は、与えられた参照音声の音声スタイルを抽出することを目的としている。
オーディオブックのデータセットは ローカルな韻律とグローバルなジャンルの両方が特徴です
- 参考スコア(独自算出の注目度): 43.99232352300273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-speaker style transfer aims to extract the speech style of the given
reference speech, which can be reproduced in the timbre of arbitrary target
speakers. Existing methods on this topic have explored utilizing
utterance-level style labels to perform style transfer via either global or
local scale style representations. However, audiobook datasets are typically
characterized by both the local prosody and global genre, and are rarely
accompanied by utterance-level style labels. Thus, properly transferring the
reading style across different speakers remains a challenging task. This paper
aims to introduce a chunk-wise multi-scale cross-speaker style model to capture
both the global genre and the local prosody in audiobook speeches. Moreover, by
disentangling speaker timbre and style with the proposed switchable adversarial
classifiers, the extracted reading style is made adaptable to the timbre of
different speakers. Experiment results confirm that the model manages to
transfer a given reading style to new target speakers. With the support of
local prosody and global genre type predictor, the potentiality of the proposed
method in multi-speaker audiobook generation is further revealed.
- Abstract(参考訳): クロススピーカースタイル転送は、任意のターゲット話者の音色で再生可能な、与えられた参照音声の音声スタイルを抽出することを目的としている。
このトピックに関する既存の手法では、グローバルまたはローカルスケールのスタイル表現を介して、発話レベルのスタイルラベルを使用してスタイル転送を行う方法が検討されている。
しかし、オーディオブックのデータセットは通常、ローカルな韻律とグローバルなジャンルの両方が特徴であり、発話レベルのラベルが伴うことは稀である。
したがって、異なる話者間で読み書きスタイルを適切に転送することは難しい課題である。
本稿では,音声ブック音声におけるグローバルジャンルと局所的韻律を捉えるために,チャンクワイズ型マルチスケールクロススピーカーモデルを提案する。
また、提案する切り替え可能な逆分類器で話者の音色とスタイルを区別することにより、抽出された読みスタイルを異なる話者の音色に適応させることができる。
実験の結果、モデルが与えられた読みスタイルを新たなターゲットスピーカーに転送できることが確認された。
ローカルな韻律とグローバルなジャンルタイプ予測器のサポートにより、マルチスピーカーオーディオブック生成における提案手法の可能性がさらに明らかになった。
関連論文リスト
- Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any
Voice Conversion using Only Speech Data [2.6217304977339473]
本稿では,ターゲット発話からリッチなスタイル情報を抽出し,ソース音声コンテンツに効率的に転送する手法を提案する。
提案手法では,自己教師付き学習(SSL)モデルを用いた注意機構を提案する。
実験結果から,提案手法と拡散型生成モデルを組み合わせることで,任意の音声変換タスクにおいて,話者の類似性が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-09-06T05:33:54Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised
Style Extractor and Hierarchical Modeling in Speech Synthesis [37.65745551401636]
音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色を合成した音声へスタイルを伝達することを目的としている。
従来の方法では、合成された微細な韻律の特徴は、しばしばソース話者の平均的なスタイルを表す。
コンテントと音色からスタイルを引き離すために, 強度制御型半教師付きスタイル抽出器を提案する。
論文 参考訳(メタデータ) (2023-03-14T08:52:58Z) - Style-Label-Free: Cross-Speaker Style Transfer by Quantized VAE and
Speaker-wise Normalization in Speech Synthesis [37.19266733527613]
音声合成におけるクロススピーカースタイルの伝達は、音源話者からターゲット話者の音色を合成した音声へスタイルを伝達することを目的としている。
これまでのほとんどのアプローチはスタイルラベルを持つデータに依存していたが、手動でアノテートされたラベルは高価であり、常に信頼できるとは限らない。
そこで我々は,話者間通信方式であるStyle-Label-Freeを提案する。
論文 参考訳(メタデータ) (2022-12-13T06:26:25Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech
Synthesis [8.603535906880937]
マルチスタイルおよび表現型音声合成を大規模に適用するには,クロススピーカ方式の転送が不可欠である。
既存のスタイル転送メソッドは、まだ実際のアプリケーションのニーズよりはるかに遅れています。
本稿では, 明瞭な韻律ボトルネックを考慮した話者間通信方式のテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2021-07-27T02:43:57Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。