論文の概要: Joint Contextual Modeling for ASR Correction and Language Understanding
- arxiv url: http://arxiv.org/abs/2002.00750v1
- Date: Tue, 28 Jan 2020 22:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:15:54.309564
- Title: Joint Contextual Modeling for ASR Correction and Language Understanding
- Title(参考訳): ASR補正と言語理解のための共同文脈モデリング
- Authors: Yue Weng, Sai Sumanth Miryala, Chandra Khatri, Runze Wang, Huaixiu
Zheng, Piero Molino, Mahdi Namazifar, Alexandros Papangelis, Hugh Williams,
Franziska Bell, Gokhan Tur
- Abstract要約: 言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
- 参考スコア(独自算出の注目度): 60.230013453699975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of automatic speech recognition (ASR) is critical to Dialogue
Systems as ASR errors propagate to and directly impact downstream tasks such as
language understanding (LU). In this paper, we propose multi-task neural
approaches to perform contextual language correction on ASR outputs jointly
with LU to improve the performance of both tasks simultaneously. To measure the
effectiveness of this approach we used a public benchmark, the 2nd Dialogue
State Tracking (DSTC2) corpus. As a baseline approach, we trained task-specific
Statistical Language Models (SLM) and fine-tuned state-of-the-art Generalized
Pre-training (GPT) Language Model to re-rank the n-best ASR hypotheses,
followed by a model to identify the dialog act and slots. i) We further trained
ranker models using GPT and Hierarchical CNN-RNN models with discriminatory
losses to detect the best output given n-best hypotheses. We extended these
ranker models to first select the best ASR output and then identify the
dialogue act and slots in an end to end fashion. ii) We also proposed a novel
joint ASR error correction and LU model, a word confusion pointer network
(WCN-Ptr) with multi-head self-attention on top, which consumes the word
confusions populated from the n-best. We show that the error rates of off the
shelf ASR and following LU systems can be reduced significantly by 14% relative
with joint models trained using small amounts of in-domain data.
- Abstract(参考訳): 自動音声認識(ASR)の品質は、言語理解(LU)などの下流タスクに伝播し直接影響を与えるため、対話システムにとって重要である。
本稿では、LUと協調してASR出力に対して文脈言語補正を行うマルチタスクニューラルアプローチを提案し、両タスクの性能を同時に改善する。
このアプローチの有効性を測定するために,第2対話状態追跡コーパス(DSTC2)を用いた。
ベースラインアプローチとして,タスク固有統計言語モデル (SLM) と最先端の汎用事前学習 (GPT) 言語モデルを訓練し,n-best ASR仮説を再検討し,次にダイアログ行動とスロットを同定した。
i) GPTモデルと階層型CNN-RNNモデルを用いたランサーモデルをさらに訓練し,n-best仮説の最適出力を検出する。
これらのランカモデルを拡張して,まず最適なasr出力を選択し,最後に対話行為とスロットをエンドツーエンドで識別した。
二)我々はまた,n-best から推定された単語の混乱を消費するマルチヘッドセルフアテンションを持つ単語混乱ポインタネットワーク (wcn-ptr) という,新しい統合 asr 誤り訂正と lu モデルを提案した。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
関連論文リスト
- Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。
我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。
そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文 参考訳(メタデータ) (2024-05-26T19:58:38Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Towards Contextual Spelling Correction for Customization of End-to-end
Speech Recognition Systems [27.483603895258437]
そこで本研究では,文脈的スペル補正モデルをエンド・ツー・エンドのASRシステム上に付加することで,コンテキストバイアスを行う新しい手法を提案する。
本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。
実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-02T06:00:48Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Cross-sentence Neural Language Models for Conversational Speech
Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。
また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文 参考訳(メタデータ) (2021-06-13T05:30:16Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。