論文の概要: Convert and Speak: Zero-shot Accent Conversion with Minimum Supervision
- arxiv url: http://arxiv.org/abs/2408.10096v1
- Date: Mon, 19 Aug 2024 15:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:43:09.832079
- Title: Convert and Speak: Zero-shot Accent Conversion with Minimum Supervision
- Title(参考訳): Convert and Speak:ミニマルスーパービジョンによるゼロショットアクセント変換
- Authors: Zhijun Jia, Huaying Xue, Xiulian Peng, Yan Lu,
- Abstract要約: アクセント変換問題の鍵となる課題は、並列データの低リソースである。
本稿では,意味トークンレベルでのみ変換を行う2段階生成フレームワーク"Convert-and-speak"を提案する。
このフレームワークは、15分程度の弱い並列データでアクセント類似性、音声品質、話者維持の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 16.21891840664049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low resource of parallel data is the key challenge of accent conversion(AC) problem in which both the pronunciation units and prosody pattern need to be converted. We propose a two-stage generative framework "convert-and-speak" in which the conversion is only operated on the semantic token level and the speech is synthesized conditioned on the converted semantic token with a speech generative model in target accent domain. The decoupling design enables the "speaking" module to use massive amount of target accent speech and relieves the parallel data required for the "conversion" module. Conversion with the bridge of semantic token also relieves the requirement for the data with text transcriptions and unlocks the usage of language pre-training technology to further efficiently reduce the need of parallel accent speech data. To reduce the complexity and latency of "speaking", a single-stage AR generative model is designed to achieve good quality as well as lower computation cost. Experiments on Indian-English to general American-English conversion show that the proposed framework achieves state-of-the-art performance in accent similarity, speech quality, and speaker maintenance with only 15 minutes of weakly parallel data which is not constrained to the same speaker. Extensive experimentation with diverse accent types suggests that this framework possesses a high degree of adaptability, making it readily scalable to accommodate other accents with low-resource data. Audio samples are available at https://www.microsoft.com/en-us/research/project/convert-and-speak-zero-shot-accent-conversion-with- minimumsupervision/.
- Abstract(参考訳): 並列データの低リソースはアクセント変換(AC)問題の鍵となる課題であり、発音単位と韻律パターンの両方を変換する必要がある。
本稿では,変換を意味的トークンレベルでのみ操作し,ターゲットアクセント領域における音声生成モデルを用いて変換された意味的トークン上で音声を条件付けする2段階生成フレームワーク"Convert-and-speak"を提案する。
分離設計により、「話者」モジュールは大量のターゲットアクセント音声を使用でき、「変換」モジュールに必要な並列データを緩和することができる。
セマンティックトークンのブリッジとの変換は、テキストの書き起こしによるデータの要求を緩和し、言語事前学習技術の使用を解放し、パラレルアクセント音声データの必要性をさらに効果的に削減する。
の複雑さとレイテンシを低減するため、単一ステージのAR生成モデルは、高い品質と低い計算コストを達成するように設計されている。
インド英語からアメリカ英語への変換実験では, アクセントの類似性, 音声品質, 話者のメンテナンスにおいて, 同一話者に拘束されない15分間の弱い並列データしか持たない状態で, 最先端の性能を実現することが示されている。
多様なアクセント型による大規模な実験は、このフレームワークが高い適応性を持っていることを示唆し、低リソースデータで他のアクセントに適応しやすくする。
オーディオサンプルはhttps://www.microsoft.com/en-us/research/project/convert-and-speak-zero-shot-accent-conversion-with- minimumsupervision/で入手できる。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Transfer Learning from Monolingual ASR to Transcription-free
Cross-lingual Voice Conversion [0.0]
言語間音声変換は、ソース話者とターゲット話者が異なる言語で話す間、同じ内容のターゲット音声を合成することを目的としたタスクである。
本稿では,モノリン言語ASRから言語間VCへの知識伝達に着目した。
外国語音声の書き起こしや言語固有の知識を必要とせず,言語間VCの対応に成功している。
論文 参考訳(メタデータ) (2020-09-30T13:44:35Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z) - Improving Accent Conversion with Reference Encoder and End-To-End
Text-To-Speech [23.30022534796909]
アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。
本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T08:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。