論文の概要: Text is All You Need: Personalizing ASR Models using Controllable Speech
Synthesis
- arxiv url: http://arxiv.org/abs/2303.14885v1
- Date: Mon, 27 Mar 2023 02:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:06:11.131480
- Title: Text is All You Need: Personalizing ASR Models using Controllable Speech
Synthesis
- Title(参考訳): テキストは必要なすべて:制御可能な音声合成を用いたASRモデルのパーソナライズ
- Authors: Karren Yang, Ting-Yao Hu, Jen-Hao Rick Chang, Hema Swetha Koppula,
Oncel Tuzel
- Abstract要約: 特定の個人に汎用音声認識モデルを適用することは、パーソナライズされたデータの不足のために難しい問題である。
近年の研究では、パーソナライズされたテキスト音声合成によるトレーニングデータの量の増加が提案されている。
- 参考スコア(独自算出の注目度): 17.172909510518814
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adapting generic speech recognition models to specific individuals is a
challenging problem due to the scarcity of personalized data. Recent works have
proposed boosting the amount of training data using personalized text-to-speech
synthesis. Here, we ask two fundamental questions about this strategy: when is
synthetic data effective for personalization, and why is it effective in those
cases? To address the first question, we adapt a state-of-the-art automatic
speech recognition (ASR) model to target speakers from four benchmark datasets
representative of different speaker types. We show that ASR personalization
with synthetic data is effective in all cases, but particularly when (i) the
target speaker is underrepresented in the global data, and (ii) the capacity of
the global model is limited. To address the second question of why personalized
synthetic data is effective, we use controllable speech synthesis to generate
speech with varied styles and content. Surprisingly, we find that the text
content of the synthetic data, rather than style, is important for speaker
adaptation. These results lead us to propose a data selection strategy for ASR
personalization based on speech content.
- Abstract(参考訳): 汎用音声認識モデルを特定の個人に適応させることは、パーソナライズされたデータの不足のために難しい問題である。
近年の研究では、パーソナライズされたテキスト音声合成によるトレーニングデータの量の増加が提案されている。
合成データがパーソナライゼーションにいつ有効か、そしてなぜそのようなケースで有効か、という2つの基本的な疑問を問う。
最初の問題に対処するため、我々は最先端の自動音声認識(ASR)モデルを適用し、異なる話者タイプを表す4つのベンチマークデータセットから話者をターゲットにした。
合成データを用いたasrパーソナライゼーションは,すべてのケースにおいて有効である。
(i)グローバルデータでは、対象話者が過小評価されていること、及び
(ii)グローバルモデルの容量は限られている。
パーソナライズされた合成データがなぜ有効かという2つ目の疑問に対処するため、制御可能な音声合成を用いて様々なスタイルと内容の音声を生成する。
意外なことに、スタイルよりもむしろ合成データのテキスト内容が話者適応に重要であることが判明した。
これらの結果から,音声コンテンツに基づくASRパーソナライズのためのデータ選択戦略を提案する。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space [10.875499903992782]
我々は、音声コマンド分類の特定のタスクに対して、合成音声データを用いてゼロショット学習に関する一連の実験を行う。
Google Speech Commands データセットの結果から,単純な ASR ベースのフィルタリング手法が生成したデータの品質に大きな影響を及ぼす可能性が示唆された。
生成した音声データの品質は高いが,自己教師付き(WavLM)機能を用いることで,合成音声と実音声の区別が容易に可能であることを示す。
論文 参考訳(メタデータ) (2024-09-19T13:07:55Z) - Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。
我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文 参考訳(メタデータ) (2024-08-17T14:47:05Z) - Communication-Efficient Personalized Federated Learning for
Speech-to-Text Tasks [66.78640306687227]
プライバシー保護と法的規制を満たすために、連邦学習(FL)は、音声テキスト(S2T)システムのトレーニングにおいて大きな注目を集めている。
S2Tタスクで一般的に使用されるFLアプローチ(textscFedAvg)は、通常、広範な通信オーバーヘッドに悩まされる。
我々は、クライアント側チューニングとサーバとのインタラクションのための軽量なLoRAモジュールであるtextscFedLoRA と、$k$-near を備えたグローバルモデルである textscFedMem を導入したパーソナライズされたS2Tフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T15:39:38Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion
Recognition [42.09340937787435]
本研究では,異なる音声教師付き事前学習モデルの表現能力について検討した。
我々は,感情的に一致したテキストと音声を生成するために,強力な大言語モデル (LLM), GPT-4, 感情的テキスト音声モデル (TTS) を使用した。
論文 参考訳(メタデータ) (2023-09-19T03:52:01Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Residual-guided Personalized Speech Synthesis based on Face Image [14.690030837311376]
先行研究は、自身の音声音声からなる大規模なデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出する。
本研究では,人間の顔からパーソナライズされた音声特徴を革新的に抽出し,ニューラルボコーダを用いてパーソナライズされた音声を合成する。
論文 参考訳(メタデータ) (2022-04-01T15:27:14Z) - Data-augmented cross-lingual synthesis in a teacher-student framework [3.2548794659022398]
言語間合成は、話者が他の言語で流動的な合成音声を生成させるタスクである。
これまでの研究では、多くのモデルでは一般化能力が不十分であることが示されている。
本稿では,教師/学生のパラダイムを言語間合成に適用することを提案する。
論文 参考訳(メタデータ) (2022-03-31T20:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。