論文の概要: Using multiple ASR hypotheses to boost i18n NLU performance
- arxiv url: http://arxiv.org/abs/2012.04099v2
- Date: Mon, 14 Dec 2020 18:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 05:26:01.406758
- Title: Using multiple ASR hypotheses to boost i18n NLU performance
- Title(参考訳): 複数のASR仮説を用いてi18n NLU性能を向上する
- Authors: Charith Peris, Gokmen Oz, Khadige Abboud, Venkata sai Varada, Prashan
Wanigasekara, Haidar Khan
- Abstract要約: 現在の音声アシスタントは、自然言語理解(NLU)モジュールへの入力として、ASR(Automatic Speech Recognition)モジュールから得られる最良の仮説を使用する。
ドイツ語とポルトガル語の2つの言語データセットのステータスクオと比較し,NLU関連タスクの性能の変化について検討した。
- 参考スコア(独自算出の注目度): 1.6474262142781433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current voice assistants typically use the best hypothesis yielded by their
Automatic Speech Recognition (ASR) module as input to their Natural Language
Understanding (NLU) module, thereby losing helpful information that might be
stored in lower-ranked ASR hypotheses. We explore the change in performance of
NLU associated tasks when utilizing five-best ASR hypotheses when compared to
status quo for two language datasets, German and Portuguese. To harvest
information from the ASR five-best, we leverage extractive summarization and
joint extractive-abstractive summarization models for Domain Classification
(DC) experiments while using a sequence-to-sequence model with a pointer
generator network for Intent Classification (IC) and Named Entity Recognition
(NER) multi-task experiments. For the DC full test set, we observe significant
improvements of up to 7.2% and 15.5% in micro-averaged F1 scores, for German
and Portuguese, respectively. In cases where the best ASR hypothesis was not an
exact match to the transcribed utterance (mismatched test set), we see
improvements of up to 6.7% and 8.8% micro-averaged F1 scores, for German and
Portuguese, respectively. For IC and NER multi-task experiments, when
evaluating on the mismatched test set, we see improvements across all domains
in German and in 17 out of 19 domains in Portuguese (improvements based on
change in SeMER scores). Our results suggest that the use of multiple ASR
hypotheses, as opposed to one, can lead to significant performance improvements
in the DC task for these non-English datasets. In addition, it could lead to
significant improvement in the performance of IC and NER tasks in cases where
the ASR model makes mistakes.
- Abstract(参考訳): 現在の音声アシスタントは、通常、彼らの自然言語理解(NLU)モジュールへの入力として自動音声認識(ASR)モジュールから得られる最良の仮説を使い、低ランクのASR仮説に格納される有用な情報を失う。
ドイツ語とポルトガル語の2つの言語データセットのステータスクオと比較し,NLU関連タスクの性能の変化について検討した。
ASR 5-best から情報を抽出するために,ドメイン分類 (DC) 実験における抽出的要約と共同抽出的要約モデルを活用し,インテント分類 (IC) と名前付きエンティティ認識 (NER) マルチタスク実験のためのポインタジェネレータネットワークを用いたシーケンス・ツー・シーケンスモデルを用いた。
DCフルテストセットでは、それぞれドイツ語とポルトガル語のマイクロ平均F1スコアの7.2%と15.5%の大幅な改善が観察された。
ASR仮説が書き起こされた発話と正確に一致しない場合(ミスマッチしたテストセット)、それぞれドイツ語とポルトガル語のF1スコアが最大6.7%と8.8%改善されている。
ICとNERのマルチタスク実験では、ミスマッチしたテストセットを評価すると、ドイツ語のすべてのドメインとポルトガル語の19ドメイン中17ドメインで改善が見られる(SeMERスコアの変化に基づく改善)。
その結果,複数のASR仮説を用いることで,これらの非英語データセットに対するDCタスクの性能が大幅に向上することが示唆された。
さらに、ASRモデルが誤りを犯した場合には、ICおよびNERタスクのパフォーマンスが大幅に向上する可能性がある。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - A Reference-less Quality Metric for Automatic Speech Recognition via
Contrastive-Learning of a Multi-Language Model with Self-Supervision [0.20999222360659603]
本研究は,音声データセット上での異なるASRモデルの性能を比較するための基準のない品質指標を提案する。
ASR仮説の質を推定するために、事前訓練された言語モデル(LM)を自己教師付き学習方式でコントラスト学習により微調整する。
提案した基準レス計量は、すべての実験において最先端の多言語LMからWERスコアとそれらのランクとの相関をはるかに高める。
論文 参考訳(メタデータ) (2023-06-21T21:33:39Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - A Multilingual Evaluation of NER Robustness to Adversarial Inputs [0.0]
言語モデルの敵対的評価は典型的には英語のみに焦点をあてる。
本稿では,入力中の小さな摂動に対する頑健性の観点から,名前付きエンティティ認識(NER)の多言語評価を行った。
既存のNERモデルに適応するために,新たなNERモデルをトレーニングするための強化トレーニングデータとして,生成した逆数データセットの一部を用いて既存のNERモデルを改善することが可能か,あるいは微調整データとして検討した。
論文 参考訳(メタデータ) (2023-05-30T10:50:49Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving RNN Transducer Based ASR with Auxiliary Tasks [21.60022481898402]
単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは、最近最先端の結果を実証した。
本研究では,リカレントニューラルネットワークトランスデューサ(RNN-T)が補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。
論文 参考訳(メタデータ) (2020-11-05T21:46:32Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。