論文の概要: RescoreBERT: Discriminative Speech Recognition Rescoring with BERT
- arxiv url: http://arxiv.org/abs/2202.01094v1
- Date: Wed, 2 Feb 2022 15:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:43:45.288172
- Title: RescoreBERT: Discriminative Speech Recognition Rescoring with BERT
- Title(参考訳): RescoreBERT:BERTを用いた識別音声認識
- Authors: Liyan Xu, Yile Gu, Jari Kolehmainen, Haidar Khan, Ankur Gandhe, Ariya
Rastrow, Andreas Stolcke, Ivan Bulyko
- Abstract要約: ASRにおける深層指向性事前学習モデルの微調整に差別的損失の改善を組み込むために,MWER損失を伴うBERTベースの再構成モデルをトレーニングする方法を示す。
我々はこのアプローチをRescoreBERTと名付け、LibriSpeechコーパスで評価し、BERTベースライン上のクリーン/他のテストセットに対して、差別的目的なくWERを6.6%/3.4%削減する。
- 参考スコア(独自算出の注目度): 21.763672436079872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-pass rescoring is an important component in automatic speech
recognition (ASR) systems that is used to improve the outputs from a first-pass
decoder by implementing a lattice rescoring or $n$-best re-ranking. While
pretraining with a masked language model (MLM) objective has received great
success in various natural language understanding (NLU) tasks, it has not
gained traction as a rescoring model for ASR. Specifically, training a
bidirectional model like BERT on a discriminative objective such as minimum WER
(MWER) has not been explored. Here we where show how to train a BERT-based
rescoring model with MWER loss, to incorporate the improvements of a
discriminative loss into fine-tuning of deep bidirectional pretrained models
for ASR. We propose a fusion strategy that incorporates the MLM into the
discriminative training process to effectively distill the knowledge from a
pretrained model. We further propose an alternative discriminative loss. We
name this approach RescoreBERT, and evaluate it on the LibriSpeech corpus, and
it reduces WER by 6.6%/3.4% relative on clean/other test sets over a BERT
baseline without discriminative objective. We also evaluate our method on an
internal dataset from a conversational agent and find that it reduces both
latency and WER (by 3-8% relative) over an LSTM rescoring model.
- Abstract(参考訳): 第2パスリコーリングは、第1パスデコーダからの出力を改善するために、格子リコーリングまたは$n$-best再ランキングを実装して使用される自動音声認識(asr)システムにおいて重要なコンポーネントである。
マスク付き言語モデル(MLM)を用いた事前学習は、様々な自然言語理解(NLU)タスクにおいて大きな成功を収めてきたが、ASRの再構成モデルとして注目されることはなかった。
特に、最小 wer (mwer) のような判別目的に対して bert のような双方向モデルの訓練は行われていない。
ここでは,深い双方向事前学習モデルの微調整に差別的損失の改善を組み込むために,MWER損失を伴うBERTベースの再構成モデルをトレーニングする方法を示す。
本稿では,MLMを識別訓練プロセスに組み込んで,事前学習モデルから知識を効果的に抽出する融合戦略を提案する。
我々はさらに別の差別的損失を提案する。
我々はこのアプローチをRescoreBERTと名付け、LibriSpeechコーパスで評価し、BERTベースライン上のクリーン/他のテストセットに対して、識別目的のないWERを6.6%/3.4%削減する。
また、会話エージェントから内部データセット上での手法の評価を行い、LSTM再構成モデルよりもレイテンシとWER(相対的に3~8%)を低減できることを示した。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Zero-Shot Automatic Pronunciation Assessment [19.971348810774046]
本稿では,事前学習した音響モデル HuBERT に基づく新しいゼロショットAPA法を提案する。
speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-31T05:17:17Z) - Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。
このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。
本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T14:32:46Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - A Method to Reveal Speaker Identity in Distributed ASR Training, and How
to Counter It [3.18475216176047]
学習発話の話者の同一性を明らかにするための第1の手法を,勾配のみへのアクセスで設計する。
我々は、LibriSpeechデータセット上で34%のトップ1精度(51%のトップ5精度)で話者の身元を明らかにすることができることを示した。
論文 参考訳(メタデータ) (2021-04-15T23:15:12Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。