論文の概要: An Approach to Improve Robustness of NLP Systems against ASR Errors
- arxiv url: http://arxiv.org/abs/2103.13610v1
- Date: Thu, 25 Mar 2021 05:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:42:53.005677
- Title: An Approach to Improve Robustness of NLP Systems against ASR Errors
- Title(参考訳): ASRエラーに対するNLPシステムのロバスト性向上の一手法
- Authors: Tong Cui, Jinghui Xiao, Liangyou Li, Xin Jiang, Qun Liu
- Abstract要約: 音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
- 参考スコア(独自算出の注目度): 39.57253455717825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-enabled systems typically first convert audio to text through an
automatic speech recognition (ASR) model and then feed the text to downstream
natural language processing (NLP) modules. The errors of the ASR system can
seriously downgrade the performance of the NLP modules. Therefore, it is
essential to make them robust to the ASR errors. Previous work has shown it is
effective to employ data augmentation methods to solve this problem by
injecting ASR noise during the training process. In this paper, we utilize the
prevalent pre-trained language model to generate training samples with
ASR-plausible noise. Compare to the previous methods, our approach generates
ASR noise that better fits the real-world error distribution. Experimental
results on spoken language translation(SLT) and spoken language understanding
(SLU) show that our approach effectively improves the system robustness against
the ASR errors and achieves state-of-the-art results on both tasks.
- Abstract(参考訳): 音声対応システムは、まず自動音声認識(asr)モデルを通じて音声をテキストに変換し、次に下流自然言語処理(nlp)モジュールにテキストを供給する。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
したがって、これらをASRエラーに対して堅牢にすることが不可欠である。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
本稿では,ASR-plausible noiseを用いたトレーニングサンプルを生成するために,事前学習言語モデルを利用する。
従来の手法と比較して,本手法は実世界の誤差分布に適合するASRノイズを生成する。
音声言語翻訳(SLT)と音声言語理解(SLU)に関する実験結果から,本手法はASRの誤りに対するシステムの堅牢性を効果的に向上し,両課題における最先端の結果が得られた。
関連論文リスト
- Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。