Fugu-MT 論文翻訳(概要): Text is All You Need: Personalizing ASR Models using Controllable Speech Synthesis

論文の概要: Text is All You Need: Personalizing ASR Models using Controllable Speech Synthesis

arxiv url: http://arxiv.org/abs/2303.14885v1
Date: Mon, 27 Mar 2023 02:50:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 17:06:11.131480
Title: Text is All You Need: Personalizing ASR Models using Controllable Speech Synthesis
Title（参考訳）: テキストは必要なすべて:制御可能な音声合成を用いたASRモデルのパーソナライズ
Authors: Karren Yang, Ting-Yao Hu, Jen-Hao Rick Chang, Hema Swetha Koppula, Oncel Tuzel
Abstract要約: 特定の個人に汎用音声認識モデルを適用することは、パーソナライズされたデータの不足のために難しい問題である。近年の研究では、パーソナライズされたテキスト音声合成によるトレーニングデータの量の増加が提案されている。
参考スコア（独自算出の注目度）: 17.172909510518814
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Adapting generic speech recognition models to specific individuals is a challenging problem due to the scarcity of personalized data. Recent works have proposed boosting the amount of training data using personalized text-to-speech synthesis. Here, we ask two fundamental questions about this strategy: when is synthetic data effective for personalization, and why is it effective in those cases? To address the first question, we adapt a state-of-the-art automatic speech recognition (ASR) model to target speakers from four benchmark datasets representative of different speaker types. We show that ASR personalization with synthetic data is effective in all cases, but particularly when (i) the target speaker is underrepresented in the global data, and (ii) the capacity of the global model is limited. To address the second question of why personalized synthetic data is effective, we use controllable speech synthesis to generate speech with varied styles and content. Surprisingly, we find that the text content of the synthetic data, rather than style, is important for speaker adaptation. These results lead us to propose a data selection strategy for ASR personalization based on speech content.
Abstract（参考訳）: 汎用音声認識モデルを特定の個人に適応させることは、パーソナライズされたデータの不足のために難しい問題である。近年の研究では、パーソナライズされたテキスト音声合成によるトレーニングデータの量の増加が提案されている。合成データがパーソナライゼーションにいつ有効か、そしてなぜそのようなケースで有効か、という2つの基本的な疑問を問う。最初の問題に対処するため、我々は最先端の自動音声認識(ASR)モデルを適用し、異なる話者タイプを表す4つのベンチマークデータセットから話者をターゲットにした。合成データを用いたasrパーソナライゼーションは,すべてのケースにおいて有効である。 (i)グローバルデータでは、対象話者が過小評価されていること、及び (ii)グローバルモデルの容量は限られている。パーソナライズされた合成データがなぜ有効かという2つ目の疑問に対処するため、制御可能な音声合成を用いて様々なスタイルと内容の音声を生成する。意外なことに、スタイルよりもむしろ合成データのテキスト内容が話者適応に重要であることが判明した。これらの結果から,音声コンテンツに基づくASRパーソナライズのためのデータ選択戦略を提案する。

関連論文リスト

AutoStyle-TTS: Retrieval-Augmented Generation based Automatic Style Matching Text-to-Speech Synthesis [19.141058309358424]
本研究では,レトリーバル拡張生成(RAG)技術に基づくTTS(text-to-speech)フレームワークを提案する。様々な文脈で高品質な音声サンプルを含む音声スタイルの知識データベースを構築した。このスキームは、Llama、PER-LLM-Embedder、Mokaによって抽出された埋め込みを用いて知識データベースのサンプルとマッチングし、合成に最も適した音声スタイルを選択する。
論文参考訳（メタデータ） (2025-04-14T15:18:59Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space [10.875499903992782]
我々は、音声コマンド分類の特定のタスクに対して、合成音声データを用いてゼロショット学習に関する一連の実験を行う。 Google Speech Commands データセットの結果から,単純な ASR ベースのフィルタリング手法が生成したデータの品質に大きな影響を及ぼす可能性が示唆された。生成した音声データの品質は高いが,自己教師付き(WavLM)機能を用いることで,合成音声と実音声の区別が容易に可能であることを示す。
論文参考訳（メタデータ） (2024-09-19T13:07:55Z)
Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文参考訳（メタデータ） (2024-08-17T14:47:05Z)
Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks [66.78640306687227]
プライバシー保護と法的規制を満たすために、連邦学習(FL)は、音声テキスト(S2T)システムのトレーニングにおいて大きな注目を集めている。 S2Tタスクで一般的に使用されるFLアプローチ(textscFedAvg)は、通常、広範な通信オーバーヘッドに悩まされる。我々は、クライアント側チューニングとサーバとのインタラクションのための軽量なLoRAモジュールであるtextscFedLoRA と、$k$-near を備えたグローバルモデルである textscFedMem を導入したパーソナライズされたS2Tフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-18T15:39:38Z)
Disentangling Voice and Content with Self-Supervision for Speaker Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文参考訳（メタデータ） (2023-10-02T12:02:07Z)
Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition [42.09340937787435]
本研究では,異なる音声教師付き事前学習モデルの表現能力について検討した。我々は,感情的に一致したテキストと音声を生成するために,強力な大言語モデル (LLM), GPT-4, 感情的テキスト音声モデル (TTS) を使用した。
論文参考訳（メタデータ） (2023-09-19T03:52:01Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。 GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2022-05-15T08:16:02Z)
Residual-guided Personalized Speech Synthesis based on Face Image [14.690030837311376]
先行研究は、自身の音声音声からなる大規模なデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出する。本研究では,人間の顔からパーソナライズされた音声特徴を革新的に抽出し,ニューラルボコーダを用いてパーソナライズされた音声を合成する。
論文参考訳（メタデータ） (2022-04-01T15:27:14Z)
Data-augmented cross-lingual synthesis in a teacher-student framework [3.2548794659022398]
言語間合成は、話者が他の言語で流動的な合成音声を生成させるタスクである。これまでの研究では、多くのモデルでは一般化能力が不十分であることが示されている。本稿では,教師/学生のパラダイムを言語間合成に適用することを提案する。
論文参考訳（メタデータ） (2022-03-31T20:01:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。