論文の概要: Don't Stop Self-Supervision: Accent Adaptation of Speech Representations
via Residual Adapters
- arxiv url: http://arxiv.org/abs/2307.00453v1
- Date: Sun, 2 Jul 2023 02:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:04:34.836019
- Title: Don't Stop Self-Supervision: Accent Adaptation of Speech Representations
via Residual Adapters
- Title(参考訳): 自己スーパービジョンを止めるな - 残差アダプタによる音声表現のアクセント適応
- Authors: Anshu Bhatia, Sanchit Sinha, Saket Dingliwal, Karthik Gopalakrishnan,
Sravan Bodapati, Katrin Kirchhoff
- Abstract要約: 大規模未ラベル音声コーパスから自己教師型で学習した音声表現は、複数の下流タスクに適応することに成功した。
そこで本研究では,アクセント固有のアダプタを訓練し,パラメータ効率の高い手法で音声表現を適応させる手法を提案する。
全4アクセントに対して,HuBERT-largeよりも強い単語誤り率(WERR)が減少し,アクセント特異的アダプターでは平均WERRが22.7%,全エンコーダがアクセント適応であれば平均WERRが25.1%となった。
- 参考スコア(独自算出の注目度): 14.645374377673148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech representations learned in a self-supervised fashion from massive
unlabeled speech corpora have been adapted successfully toward several
downstream tasks. However, such representations may be skewed toward canonical
data characteristics of such corpora and perform poorly on atypical, non-native
accented speaker populations. With the state-of-the-art HuBERT model as a
baseline, we propose and investigate self-supervised adaptation of speech
representations to such populations in a parameter-efficient way via training
accent-specific residual adapters. We experiment with 4 accents and choose
automatic speech recognition (ASR) as the downstream task of interest. We
obtain strong word error rate reductions (WERR) over HuBERT-large for all 4
accents, with a mean WERR of 22.7% with accent-specific adapters and a mean
WERR of 25.1% if the entire encoder is accent-adapted. While our experiments
utilize HuBERT and ASR as the downstream task, our proposed approach is both
model and task-agnostic.
- Abstract(参考訳): 大規模未ラベル音声コーパスから自己教師型で学習した音声表現は、複数の下流タスクに適応した。
しかし、そのような表現は、そのようなコーパスの標準的データ特性に偏り、非典型的、非母語アクセントな話者集団ではうまく機能しない。
最先端のhubertモデルをベースラインとして,アクセント固有の残差アダプタの訓練を通じて,これらの集団に対する音声表現の自己教師あり適応をパラメータ効率良く提案し,検討する。
4つのアクセントを実験し,下流課題として自動音声認識(asr)を選択した。
全4アクセントに対してHuBERT-largeよりも強い単語誤り率(WERR)が減少し,アクセント特異的アダプターでは平均WERRが22.7%,全エンコーダがアクセント適応であれば平均WERRが25.1%となる。
実験では,HuBERT と ASR を下流タスクとして用いているが,提案手法はモデルとタスクに依存しない。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - USAT: A Universal Speaker-Adaptive Text-to-Speech Approach [11.022840133207788]
目に見えない、データセット外話者のために、人生のようなスピーチを無視するという課題は、重要で未解決のままである。
ゼロショットアプローチは、強いアクセントを持つ話者の声を再現するために、一般化性能が不十分である。
非常に多様なアクセントを再現することができず、保存の負担が大きくなり、過度なフィットや破滅的な忘れ込みのリスクが生じる。
提案手法は,ゼロショット話者適応戦略と少数ショット話者適応戦略を一体化したものである。
論文 参考訳(メタデータ) (2024-04-28T06:50:55Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Residual Adapters for Parameter-Efficient ASR Adaptation to Atypical and
Accented Speech [5.960279280033886]
モデルファインタニングと比較して,比較的少数の余分なパラメータをエンコーダ層に追加することにより,類似の適応ゲインが得られることを示す。
我々はこれを2つの言語適応タスク(非典型的およびアクセント付き音声)と2つの最先端のASRアーキテクチャで実証する。
論文 参考訳(メタデータ) (2021-09-14T20:04:47Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。