論文の概要: Voice-preserving Zero-shot Multiple Accent Conversion
- arxiv url: http://arxiv.org/abs/2211.13282v1
- Date: Wed, 23 Nov 2022 19:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 18:24:55.798635
- Title: Voice-preserving Zero-shot Multiple Accent Conversion
- Title(参考訳): 音声保存ゼロショット多重アクセント変換
- Authors: Mumin Jin, Prashant Serai, Jilong Wu, Andros Tjandra, Vimal Manohar,
Qing He
- Abstract要約: アクセント変換システムは、話者のアクセントを変更するが、その話者の音声アイデンティティを保持する。
我々は,他の音響特性を維持しつつ,アクセント依存的特徴をアンタングル化するために,対角学習を用いる。
我々のモデルは、ターゲットのアクセントに近づき、元の話者のように聞こえる音声を生成する。
- 参考スコア(独自算出の注目度): 16.75414785994187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most people who have tried to learn a foreign language would have experienced
difficulties understanding or speaking with a native speaker's accent. For
native speakers, understanding or speaking a new accent is likewise a difficult
task. An accent conversion system that changes a speaker's accent but preserves
that speaker's voice identity, such as timbre and pitch, has the potential for
a range of applications, such as communication, language learning, and
entertainment. Existing accent conversion models tend to change the speaker
identity and accent at the same time. Here, we use adversarial learning to
disentangle accent dependent features while retaining other acoustic
characteristics. What sets our work apart from existing accent conversion
models is the capability to convert an unseen speaker's utterance to multiple
accents while preserving its original voice identity. Subjective evaluations
show that our model generates audio that sound closer to the target accent and
like the original speaker.
- Abstract(参考訳): 外国語を学ぼうとしたほとんどの人は、母語話者のアクセントを理解したり話すのに苦労していただろう。
ネイティブスピーカーにとって、新しいアクセントを理解したり、話すことは、同様に難しい作業である。
アクセント変換システムは話者のアクセントを変化させるが、音色やピッチといった話者の声のアイデンティティを保ちながら、コミュニケーション、言語学習、娯楽といった様々な応用の可能性を持っている。
既存のアクセント変換モデルは、話者のアイデンティティとアクセントを同時に変える傾向がある。
ここでは,他の音響特性を保ちながら,アクセント依存特徴をアンタングル化するために,対角学習を用いる。
既存のアクセント変換モデルと違うのは、意図しない話者の発話を複数のアクセントに変換しながら、元の音声のアイデンティティを保ちながら、複数のアクセントに変換する能力です。
主観評価では,本モデルがターゲットアクセントに近づき,元の話者に近い音声を生成することを示す。
関連論文リスト
- Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Modelling low-resource accents without accent-specific TTS frontend [4.185844990558149]
本研究は,TTSを持たない話者のアクセントをモデル化することに焦点を当てる。
本稿では,まずターゲットアクセントデータを,音声変換によるドナー音声のように拡張する手法を提案する。
次に、録音データと合成データを組み合わせてマルチスピーカのマルチアクセントTSモデルを訓練し、ターゲットアクセントを生成する。
論文 参考訳(メタデータ) (2023-01-11T18:00:29Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Explicit Intensity Control for Accented Text-to-speech [65.35831577398174]
TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
論文 参考訳(メタデータ) (2022-10-27T12:23:41Z) - Analysis of French Phonetic Idiosyncrasies for Accent Recognition [0.8602553195689513]
発音の違い、アクセントと音声のイントネーションは、音声認識の最も一般的な問題の1つである。
従来の機械学習技術と畳み込みニューラルネットワークを使い、古典的手法ではこの問題を解決するのに十分な効率が得られていないことを示す。
本稿では,フランス語のアクセントに焦点をあてるとともに,そのスペクトルに対するフランス語の慣用音の影響を理解することによって,その限界を識別する。
論文 参考訳(メタデータ) (2021-10-18T10:50:50Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Defending Your Voice: Adversarial Attack on Voice Conversion [70.19396655909455]
音声変換に対する対人攻撃を最初に行う試みについて報告する。
音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。
その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
論文 参考訳(メタデータ) (2020-05-18T14:51:54Z) - AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。
次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。
アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文 参考訳(メタデータ) (2020-05-16T12:38:30Z) - Generating Multilingual Voices Using Speaker Space Translation Based on
Bilingual Speaker Data [15.114637085644057]
言語における合成音声のアクセントの度合いを制御するために,話者空間における単純な変換が利用できることを示す。
同じ変換を単言語話者にも適用することができる。
論文 参考訳(メタデータ) (2020-04-10T10:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。