論文の概要: Data-augmented cross-lingual synthesis in a teacher-student framework
- arxiv url: http://arxiv.org/abs/2204.00061v1
- Date: Thu, 31 Mar 2022 20:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:34:35.579905
- Title: Data-augmented cross-lingual synthesis in a teacher-student framework
- Title(参考訳): 教師・学生の枠組みを用いたデータ強化言語間合成
- Authors: Marcel de Korte, Jaebok Kim, Aki Kunikoshi, Adaeze Adigwe, Esther
Klabbers
- Abstract要約: 言語間合成は、話者が他の言語で流動的な合成音声を生成させるタスクである。
これまでの研究では、多くのモデルでは一般化能力が不十分であることが示されている。
本稿では,教師/学生のパラダイムを言語間合成に適用することを提案する。
- 参考スコア(独自算出の注目度): 3.2548794659022398
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cross-lingual synthesis can be defined as the task of letting a speaker
generate fluent synthetic speech in another language. This is a challenging
task, and resulting speech can suffer from reduced naturalness, accented
speech, and/or loss of essential voice characteristics. Previous research shows
that many models appear to have insufficient generalization capabilities to
perform well on every of these cross-lingual aspects. To overcome these
generalization problems, we propose to apply the teacher-student paradigm to
cross-lingual synthesis. While a teacher model is commonly used to produce
teacher forced data, we propose to also use it to produce augmented data of
unseen speaker-language pairs, where the aim is to retain essential speaker
characteristics. Both sets of data are then used for student model training,
which is trained to retain the naturalness and prosodic variation present in
the teacher forced data, while learning the speaker identity from the augmented
data. Some modifications to the student model are proposed to make the
separation of teacher forced and augmented data more straightforward. Results
show that the proposed approach improves the retention of speaker
characteristics in the speech, while managing to retain high levels of
naturalness and prosodic variation.
- Abstract(参考訳): 言語間合成は、話者が他の言語で流麗な合成音声を生成するタスクとして定義することができる。
これは難しい課題であり、結果の音声は自然さの低下、アクセント付き音声、および/または本質的な音声特性の喪失に悩まされる。
これまでの研究では、多くのモデルはこれらの言語横断的な側面でうまく機能するほど一般化能力が不十分であることを示している。
これらの一般化問題を克服するために,教師-学生パラダイムを言語間合成に適用することを提案する。
教師モデルでは教師の強制データを生成するのが一般的であるが,本研究では,教師モデルを用いて未熟な話者-言語ペアの拡張データを生成することを提案する。
教師が強制したデータに含まれる自然性や韻律的変動を維持しながら、教師の個人性を拡張データから学習する学生モデルのトレーニングに、両方のデータセットが使用される。
教師の強制力と拡張データの分離をより容易にするために,学生モデルの修正がいくつか提案されている。
その結果,提案手法は,高い自然性と韻律変動を維持しつつ,音声中の話者特性の保持を改善していることがわかった。
関連論文リスト
- CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation [25.82932373649325]
CrossSpeech++は、言語と話者情報をアンタングルする方法である。
これにより、言語間音声合成の品質が大幅に向上する。
さまざまなメトリクスを使って広範な実験を行い、CrossSpeech++が大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2024-12-28T06:32:49Z) - Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。
我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文 参考訳(メタデータ) (2024-12-23T10:23:47Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Text is All You Need: Personalizing ASR Models using Controllable Speech
Synthesis [17.172909510518814]
特定の個人に汎用音声認識モデルを適用することは、パーソナライズされたデータの不足のために難しい問題である。
近年の研究では、パーソナライズされたテキスト音声合成によるトレーニングデータの量の増加が提案されている。
論文 参考訳(メタデータ) (2023-03-27T02:50:02Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。
7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文 参考訳(メタデータ) (2023-01-24T22:39:04Z) - Speaker Information Can Guide Models to Better Inductive Biases: A Case
Study On Predicting Code-Switching [27.68274308680201]
社会言語学的に座屈した話者特徴を事前のプロンプトとして付加すると精度が著しく向上することを示す。
私たちは、コードスイッチングのためのニューラルモデルに話者特性を取り入れた最初の人です。
論文 参考訳(メタデータ) (2022-03-16T22:56:58Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。