論文の概要: Residual Adapters for Parameter-Efficient ASR Adaptation to Atypical and
Accented Speech
- arxiv url: http://arxiv.org/abs/2109.06952v1
- Date: Tue, 14 Sep 2021 20:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:53:39.908318
- Title: Residual Adapters for Parameter-Efficient ASR Adaptation to Atypical and
Accented Speech
- Title(参考訳): 非定型音声とアクセント音声に対するパラメータ効率のよいasr適応のための残差アダプタ
- Authors: Katrin Tomanek, Vicky Zayats, Dirk Padfield, Kara Vaillancourt, Fadi
Biadsy
- Abstract要約: モデルファインタニングと比較して,比較的少数の余分なパラメータをエンコーダ層に追加することにより,類似の適応ゲインが得られることを示す。
我々はこれを2つの言語適応タスク(非典型的およびアクセント付き音声)と2つの最先端のASRアーキテクチャで実証する。
- 参考スコア(独自算出の注目度): 5.960279280033886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) systems are often optimized to work best
for speakers with canonical speech patterns. Unfortunately, these systems
perform poorly when tested on atypical speech and heavily accented speech. It
has previously been shown that personalization through model fine-tuning
substantially improves performance. However, maintaining such large models per
speaker is costly and difficult to scale. We show that by adding a relatively
small number of extra parameters to the encoder layers via so-called residual
adapter, we can achieve similar adaptation gains compared to model fine-tuning,
while only updating a tiny fraction (less than 0.5%) of the model parameters.
We demonstrate this on two speech adaptation tasks (atypical and accented
speech) and for two state-of-the-art ASR architectures.
- Abstract(参考訳): 自動音声認識(ASR)システムは、標準音声パターンを持つ話者に最適に最適化されることが多い。
残念なことに、これらのシステムは非定型音声と重アクセント音声でのテストでは性能が良くない。
これまでは、モデルの微調整によるパーソナライズがパフォーマンスを大幅に改善することが示されている。
しかし、スピーカー毎にそのような大きなモデルを維持するのはコストがかかり、スケールが難しい。
残差アダプタによってエンコーダ層に比較的少数の余分なパラメータを追加することで、モデルパラメータのわずかな部分(0.5%未満)を更新しながら、モデルの微調整と比較して、同様の適応性が得られることを示した。
我々はこれを2つの言語適応タスク(非定型およびアクセント付き音声)と2つの最先端のASRアーキテクチャで実証する。
関連論文リスト
- Lightweight Zero-shot Text-to-Speech with Mixture of Adapters [36.29364245236912]
アダプタの混合 (MoA) を用いた軽量ゼロショット音声合成 (TTS) 手法を提案する。
提案手法は,非自己回帰的TSSモデルのデコーダと分散アダプタにMoAモジュールを組み込む。
提案手法は,最小限の追加パラメータで高品質な音声合成を実現する。
論文 参考訳(メタデータ) (2024-07-01T13:45:31Z) - ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for
Low-Resource TTS Adaptation [18.84413550077318]
本研究では,異なる話者の独特の特徴を学習するために「アダプタの混合」手法を提案する。
提案手法は,話者選好試験において5%の顕著な改善がみられ,ベースラインよりも優れていた。
これはパラメータ効率のよい話者適応において重要な成果であり、この種の最初のモデルの1つである。
論文 参考訳(メタデータ) (2023-05-29T11:39:01Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation [21.218195769245032]
本稿では,残差アダプタと呼ばれるトレーニング可能な軽量モジュールでバックボーンモデルを拡張したパラメータ効率の低い少数話者適応を提案する。
実験結果から,提案手法は完全微調整手法と比較して,競合自然性や話者類似性を実現できることが示された。
論文 参考訳(メタデータ) (2022-10-28T03:33:07Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-06T17:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。