論文の概要: Correction Focused Language Model Training for Speech Recognition
- arxiv url: http://arxiv.org/abs/2310.11003v1
- Date: Tue, 17 Oct 2023 05:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:44:36.695926
- Title: Correction Focused Language Model Training for Speech Recognition
- Title(参考訳): 音声認識のための言語モデル学習の補正
- Authors: Yingyi Ma, Zhe Liu, Ozlem Kalinli
- Abstract要約: 本稿では,ASRの誤り語を優先順位付けすることを目的とした,新しい修正型LMトレーニング手法を提案する。
単語レベルのASR誤認度スコアを定義し、従来の単語分布として形成し、LMトレーニングをガイドする。
従来のLMと比較して、修正中心のトレーニングは十分なテキストシナリオにおいて、単語エラー率(WER)を最大5.5%削減する。
- 参考スコア(独自算出の注目度): 14.246583065323192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) have been commonly adopted to boost the performance of
automatic speech recognition (ASR) particularly in domain adaptation tasks.
Conventional way of LM training treats all the words in corpora equally,
resulting in suboptimal improvements in ASR performance. In this work, we
introduce a novel correction focused LM training approach which aims to
prioritize ASR fallible words. The word-level ASR fallibility score,
representing the likelihood of ASR mis-recognition, is defined and shaped as a
prior word distribution to guide the LM training. To enable correction focused
training with text-only corpora, large language models (LLMs) are employed as
fallibility score predictors and text generators through multi-task
fine-tuning. Experimental results for domain adaptation tasks demonstrate the
effectiveness of our proposed method. Compared with conventional LMs,
correction focused training achieves up to relatively 5.5% word error rate
(WER) reduction in sufficient text scenarios. In insufficient text scenarios,
LM training with LLM-generated text achieves up to relatively 13% WER
reduction, while correction focused training further obtains up to relatively
6% WER reduction.
- Abstract(参考訳): 言語モデル(lms)は、特にドメイン適応タスクにおける自動音声認識(asr)の性能を高めるために一般的に採用されている。
従来のlm訓練法はコーポラの全ての単語を等しく扱い、asrの性能を最適化する。
本研究では,ASRの誤り語を優先順位付けすることを目的とした,新しい修正型LMトレーニング手法を提案する。
ASR誤認識の可能性を表す単語レベルASR誤認スコアを定義し、LMトレーニングを導出するための先行単語分布として形成する。
テキストのみのコーパスによる修正集中トレーニングを実現するため,大規模言語モデル(LLM)をマルチタスク微調整による誤り度スコア予測器およびテキストジェネレータとして利用する。
ドメイン適応タスクの実験結果から,提案手法の有効性が示された。
従来のlmsと比較して、訂正焦点訓練は十分なテキストシナリオで5.5%の単語誤り率(wer)削減を達成している。
テキストシナリオが不十分な場合、LLM生成テキストによるLMトレーニングは、WERを最大13%削減する一方、修正集中トレーニングは、WERを最大6%削減する。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Multi-stage Large Language Model Correction for Speech Recognition [10.995600950995021]
我々は,大言語モデル(LLM)のASR出力の不確実性推定と推論能力を利用した,新しい多段階的アプローチを提案する。
提案手法の有効性を,WERが競合するASRシステムよりも10% 20% 向上していることを示す。
論文 参考訳(メタデータ) (2023-10-17T19:02:40Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Low-rank Adaptation of Large Language Model Rescoring for
Parameter-Efficient Speech Recognition [32.24656612803592]
音声認識出力再構成のための低ランク適応(LoRA)に基づくニューラルネットワークモデリングシステムを提案する。
本稿では,低ランク分解に基づく手法を提案し,事前訓練されたパラメータのごく一部だけを用いて,リスコリングBERTモデルをトレーニングし,新しい領域に適応させる。
提案した低ランク適応型Rescore-BERT(LoRB)アーキテクチャは、LibriSpeechおよび内部データセット上で5.4から3.6の因子でトレーニング時間を短縮した上で評価される。
論文 参考訳(メタデータ) (2023-09-26T19:41:34Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Back-Translated Task Adaptive Pretraining: Improving Accuracy and
Robustness on Text Classification [5.420446976940825]
本稿では, LM再学習のためのタスク固有データ量を増加させるBT-TAPT法を提案する。
実験結果から,BT-TAPTは従来の適応型事前学習法よりも低リソースデータと高リソースデータの両方の分類精度が向上し,ノイズに対する堅牢性が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-22T06:27:35Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。