論文の概要: Error-driven Fixed-Budget ASR Personalization for Accented Speakers
- arxiv url: http://arxiv.org/abs/2103.03142v1
- Date: Thu, 4 Mar 2021 16:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:51:39.367971
- Title: Error-driven Fixed-Budget ASR Personalization for Accented Speakers
- Title(参考訳): アクセント話者に対する誤り駆動型固定予算ASRパーソナライズ
- Authors: Abhijeet Awasthi, Aman Kansal, Sunita Sarawagi, Preethi Jyothi
- Abstract要約: 本稿では,与えられたasrモデルでは話者の発話が認識しにくいと考えられる文を識別する手法を提案する。
その結果,誤りモデルを用いて選択した文に対する話者の発話は,ランダムに選択された文に対する話者の発話よりも誤り率が高いことがわかった。
- 参考スコア(独自算出の注目度): 30.495732465638003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of personalizing ASR models while being constrained by a
fixed budget on recording speaker-specific utterances. Given a speaker and an
ASR model, we propose a method of identifying sentences for which the speaker's
utterances are likely to be harder for the given ASR model to recognize. We
assume a tiny amount of speaker-specific data to learn phoneme-level error
models which help us select such sentences. We show that speaker's utterances
on the sentences selected using our error model indeed have larger error rates
when compared to speaker's utterances on randomly selected sentences. We find
that fine-tuning the ASR model on the sentence utterances selected with the
help of error models yield higher WER improvements in comparison to fine-tuning
on an equal number of randomly selected sentence utterances. Thus, our method
provides an efficient way of collecting speaker utterances under budget
constraints for personalizing ASR models.
- Abstract(参考訳): 話者特有の発話を記録するための固定予算に縛られながら、ASRモデルをパーソナライズするタスクを検討します。
話者とASRモデルが与えられた場合,話者の発話を認識しにくくする文を識別する手法を提案する。
このような文を選択するのに役立つ音素レベルの誤りモデルを学習するために、少数の話者固有データを仮定する。
その結果,誤りモデルを用いて選択した文に対する話者の発話は,ランダムに選択された文に対する話者の発話よりも誤り率が高いことがわかった。
誤りモデルの助けを借りて選択した文発話におけるasrモデルの微調整は、ランダムに選択された文発話数の微調整と比較して高いwr改善をもたらすことが判明した。
そこで本手法は,ASRモデルのパーソナライズのための予算制約下で話者発話を効率よく収集する方法を提供する。
関連論文リスト
- Extending Whisper with prompt tuning to target-speaker ASR [18.31992429200396]
ターゲット話者自動音声認識(Target-Speaker Automatic Speech Recognition, ASR)は、ターゲット話者の所望の音声を重なり合う発話から書き起こすことを目的としている。
既存のターゲットスピーカーASR(TS-ASR)の手法のほとんどは、スクラッチからトレーニングするか、事前訓練されたモデルを完全に微調整するものである。
この研究は、パラメータ効率のよい微調整手法であるプロンプトチューニングを利用して、大規模なシングルストーカーASRモデルであるWhisperをTS-ASRに拡張する。
論文 参考訳(メタデータ) (2023-12-13T11:49:16Z) - Lexical Speaker Error Correction: Leveraging Language Models for Speaker
Diarization Error Correction [4.409889336732851]
話者ダイアリゼーション (SD) は通常、認識された単語に話者ラベルを登録するために自動音声認識 (ASR) システムで使用される。
このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。
語彙情報を用いた第2パス話者誤り訂正システムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:47:41Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。