論文の概要: An Approach to Improve Robustness of NLP Systems against ASR Errors
- arxiv url: http://arxiv.org/abs/2103.13610v1
- Date: Thu, 25 Mar 2021 05:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:42:53.005677
- Title: An Approach to Improve Robustness of NLP Systems against ASR Errors
- Title(参考訳): ASRエラーに対するNLPシステムのロバスト性向上の一手法
- Authors: Tong Cui, Jinghui Xiao, Liangyou Li, Xin Jiang, Qun Liu
- Abstract要約: 音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
- 参考スコア(独自算出の注目度): 39.57253455717825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-enabled systems typically first convert audio to text through an
automatic speech recognition (ASR) model and then feed the text to downstream
natural language processing (NLP) modules. The errors of the ASR system can
seriously downgrade the performance of the NLP modules. Therefore, it is
essential to make them robust to the ASR errors. Previous work has shown it is
effective to employ data augmentation methods to solve this problem by
injecting ASR noise during the training process. In this paper, we utilize the
prevalent pre-trained language model to generate training samples with
ASR-plausible noise. Compare to the previous methods, our approach generates
ASR noise that better fits the real-world error distribution. Experimental
results on spoken language translation(SLT) and spoken language understanding
(SLU) show that our approach effectively improves the system robustness against
the ASR errors and achieves state-of-the-art results on both tasks.
- Abstract(参考訳): 音声対応システムは、まず自動音声認識(asr)モデルを通じて音声をテキストに変換し、次に下流自然言語処理(nlp)モジュールにテキストを供給する。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
したがって、これらをASRエラーに対して堅牢にすることが不可欠である。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
本稿では,ASR-plausible noiseを用いたトレーニングサンプルを生成するために,事前学習言語モデルを利用する。
従来の手法と比較して,本手法は実世界の誤差分布に適合するASRノイズを生成する。
音声言語翻訳(SLT)と音声言語理解(SLU)に関する実験結果から,本手法はASRの誤りに対するシステムの堅牢性を効果的に向上し,両課題における最先端の結果が得られた。
関連論文リスト
- Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Improving Robustness of Neural Inverse Text Normalization via
Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method [4.343606621506086]
逆テキスト正規化(ITN)は、特に自動音声認識(ASR)の文脈において、音声形式を書字形式に変換する上で重要である
本稿では,ASR 言語文脈エミュレーションによるペアの強化と,大規模言語モデルにより強化された半教師付き学習手法を用いて,ASR 生成したテキストや音声テキストを利用するダイレクトトレーニング手法を提案する。
提案手法は,様々なASRシナリオにおけるITN性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-12T06:05:57Z) - Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。