論文の概要: Robust Unstructured Knowledge Access in Conversational Dialogue with ASR
Errors
- arxiv url: http://arxiv.org/abs/2211.03990v1
- Date: Tue, 8 Nov 2022 04:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 16:12:36.285160
- Title: Robust Unstructured Knowledge Access in Conversational Dialogue with ASR
Errors
- Title(参考訳): ASR誤りのある会話対話におけるロバストな非構造的知識アクセス
- Authors: Yik-Cheung Tam, Jiacheng Xu, Jiakai Zou, Zecheng Wang, Tinglong Liao,
Shuhan Yuan
- Abstract要約: 音声言語理解(SLU)の性能は自動音声認識(ASR)エラーで劣化させることができる。
ASRエラーシミュレータを用いてクリーントレーニングテキストをランダムに破損させることにより,SLUのロバスト性を改善する新しい手法を提案する。
提案するエラーシミュレータでは,ASRデコーダから生成した混乱ネットワークを人間の書き起こしなしで利用し,モデルトレーニングのための様々なエラーパターンを生成する。
- 参考スコア(独自算出の注目度): 10.912392792200812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance of spoken language understanding (SLU) can be degraded with
automatic speech recognition (ASR) errors. We propose a novel approach to
improve SLU robustness by randomly corrupting clean training text with an ASR
error simulator, followed by self-correcting the errors and minimizing the
target classification loss in a joint manner. In the proposed error simulator,
we leverage confusion networks generated from an ASR decoder without human
transcriptions to generate a variety of error patterns for model training. We
evaluate our approach on the DSTC10 challenge targeted for knowledge-grounded
task-oriented conversational dialogues with ASR errors. Experimental results
show the effectiveness of our proposed approach, boosting the knowledge-seeking
turn detection (KTD) F1 significantly from 0.9433 to 0.9904. Knowledge cluster
classification is boosted from 0.7924 to 0.9333 in Recall@1. After knowledge
document re-ranking, our approach shows significant improvement in all
knowledge selection metrics, from 0.7358 to 0.7806 in Recall@1, from 0.8301 to
0.9333 in Recall@5, and from 0.7798 to 0.8460 in MRR@5 on the test set. In the
recent DSTC10 evaluation, our approach demonstrates significant improvement in
knowledge selection, boosting Recall@1 from 0.495 to 0.7144 compared to the
official baseline. Our source code is released in GitHub
https://github.com/yctam/dstc10_track2_task2.git.
- Abstract(参考訳): 音声言語理解(SLU)の性能は自動音声認識(ASR)エラーで劣化させることができる。
ASRエラーシミュレータを用いてクリーンなトレーニングテキストをランダムに破壊し、エラーを自己修正し、目標分類損失を最小化することにより、SLUのロバスト性を改善する新しい手法を提案する。
提案するエラーシミュレータでは,ASRデコーダから生成した混乱ネットワークを人間の書き起こしなしで利用し,モデルトレーニングのための様々なエラーパターンを生成する。
我々は,知識に基づくタスク指向会話とASRエラーの対話を目的としたDSTC10課題に対するアプローチを評価する。
実験の結果,提案手法の有効性が示され,ktd f1 は 0.9433 から 0.9904 に有意に向上した。
Recall@1では、知識クラスタの分類が0.7924から0.9333に向上している。
知識ドキュメントの再評価の結果,Recall@1では0.7358から0.7806,Recall@5では0.8301から0.9333,テストセットでは0.7798から0.8460まで,すべての知識選択指標が大幅に改善された。
近年のDSTC10評価では,リコール@1を0.495から0.7144に引き上げ,知識選択の大幅な改善が示されている。
ソースコードはgithub https://github.com/yctam/dstc10_track2_task2.gitで公開しています。
関連論文リスト
- Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Data Augmentation for Training Dialog Models Robust to Speech
Recognition Errors [5.53506103787497]
Amazon Alexa、Google Assistant、Apple Siriなどの音声ベースのバーチャルアシスタントは、通常、ユーザーの音声信号を自動音声認識(ASR)を通じてテキストデータに変換する。
ASR出力はエラーを起こしやすいが、下流のダイアログモデルはしばしばエラーのないテキストデータに基づいて訓練され、推論時間中にASRエラーに敏感になる。
我々は、ASRエラーシミュレータを利用して、エラーのないテキストデータにノイズを注入し、その後、拡張データでダイアログモデルを訓練する。
論文 参考訳(メタデータ) (2020-06-10T03:18:15Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。