Fugu-MT 論文翻訳(概要): Voice-preserving Zero-shot Multiple Accent Conversion

論文の概要: Voice-preserving Zero-shot Multiple Accent Conversion

arxiv url: http://arxiv.org/abs/2211.13282v1
Date: Wed, 23 Nov 2022 19:51:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 18:24:55.798635
Title: Voice-preserving Zero-shot Multiple Accent Conversion
Title（参考訳）: 音声保存ゼロショット多重アクセント変換
Authors: Mumin Jin, Prashant Serai, Jilong Wu, Andros Tjandra, Vimal Manohar, Qing He
Abstract要約: アクセント変換システムは、話者のアクセントを変更するが、その話者の音声アイデンティティを保持する。我々は,他の音響特性を維持しつつ,アクセント依存的特徴をアンタングル化するために,対角学習を用いる。我々のモデルは、ターゲットのアクセントに近づき、元の話者のように聞こえる音声を生成する。
参考スコア（独自算出の注目度）: 16.75414785994187
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most people who have tried to learn a foreign language would have experienced difficulties understanding or speaking with a native speaker's accent. For native speakers, understanding or speaking a new accent is likewise a difficult task. An accent conversion system that changes a speaker's accent but preserves that speaker's voice identity, such as timbre and pitch, has the potential for a range of applications, such as communication, language learning, and entertainment. Existing accent conversion models tend to change the speaker identity and accent at the same time. Here, we use adversarial learning to disentangle accent dependent features while retaining other acoustic characteristics. What sets our work apart from existing accent conversion models is the capability to convert an unseen speaker's utterance to multiple accents while preserving its original voice identity. Subjective evaluations show that our model generates audio that sound closer to the target accent and like the original speaker.
Abstract（参考訳）: 外国語を学ぼうとしたほとんどの人は、母語話者のアクセントを理解したり話すのに苦労していただろう。ネイティブスピーカーにとって、新しいアクセントを理解したり、話すことは、同様に難しい作業である。アクセント変換システムは話者のアクセントを変化させるが、音色やピッチといった話者の声のアイデンティティを保ちながら、コミュニケーション、言語学習、娯楽といった様々な応用の可能性を持っている。既存のアクセント変換モデルは、話者のアイデンティティとアクセントを同時に変える傾向がある。ここでは,他の音響特性を保ちながら,アクセント依存特徴をアンタングル化するために,対角学習を用いる。既存のアクセント変換モデルと違うのは、意図しない話者の発話を複数のアクセントに変換しながら、元の音声のアイデンティティを保ちながら、複数のアクセントに変換する能力です。主観評価では,本モデルがターゲットアクセントに近づき,元の話者に近い音声を生成することを示す。

関連論文リスト

Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文参考訳（メタデータ） (2024-10-19T06:12:31Z)
Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文参考訳（メタデータ） (2024-09-30T19:52:10Z)
Rethinking Speaker Embeddings for Speech Generation: Sub-Center Modeling for Capturing Intra-Speaker Diversity [51.250471760075165]
本稿では,学習中に話者単位の複数のサブセンタを利用する新しい話者埋め込みネットワークを提案する。このサブセンターモデリングにより、埋め込みは話者分類性能を維持しながら、幅広い話者固有のバリエーションを捉えることができる。
論文参考訳（メタデータ） (2024-07-05T06:54:24Z)
Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術 Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文参考訳（メタデータ） (2024-07-04T08:33:52Z)
Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文参考訳（メタデータ） (2023-10-24T16:10:58Z)
A unified one-shot prosody and speaker conversion system with self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文参考訳（メタデータ） (2022-11-12T00:54:09Z)
Analysis of French Phonetic Idiosyncrasies for Accent Recognition [0.8602553195689513]
発音の違い、アクセントと音声のイントネーションは、音声認識の最も一般的な問題の1つである。従来の機械学習技術と畳み込みニューラルネットワークを使い、古典的手法ではこの問題を解決するのに十分な効率が得られていないことを示す。本稿では,フランス語のアクセントに焦点をあてるとともに,そのスペクトルに対するフランス語の慣用音の影響を理解することによって,その限界を識別する。
論文参考訳（メタデータ） (2021-10-18T10:50:50Z)
Many-to-Many Voice Conversion based Feature Disentanglement using Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文参考訳（メタデータ） (2021-07-11T13:31:16Z)
Defending Your Voice: Adversarial Attack on Voice Conversion [70.19396655909455]
音声変換に対する対人攻撃を最初に行う試みについて報告する。音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
論文参考訳（メタデータ） (2020-05-18T14:51:54Z)
Generating Multilingual Voices Using Speaker Space Translation Based on Bilingual Speaker Data [15.114637085644057]
言語における合成音声のアクセントの度合いを制御するために,話者空間における単純な変換が利用できることを示す。同じ変換を単言語話者にも適用することができる。
論文参考訳（メタデータ） (2020-04-10T10:01:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。