論文の概要: ASR-GLUE: A New Multi-task Benchmark for ASR-Robust Natural Language
Understanding
- arxiv url: http://arxiv.org/abs/2108.13048v1
- Date: Mon, 30 Aug 2021 08:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:27:53.364653
- Title: ASR-GLUE: A New Multi-task Benchmark for ASR-Robust Natural Language
Understanding
- Title(参考訳): ASR-GLUE: ASR-Robust自然言語理解のための新しいマルチタスクベンチマーク
- Authors: Lingyun Feng, Jianwei Yu, Deng Cai, Songxiang Liu, Haitao Zheng, Yan
Wang
- Abstract要約: 自動音声認識(ASR)による誤りに対する自然言語理解システムの堅牢性について検討する。
ASR-GLUEベンチマーク(ASR-GLUE benchmark)は、ASRエラー下でのモデルの性能を評価するための6つの異なるNLUタスクの新たなコレクションである。
- 参考スコア(独自算出の注目度): 42.80343041535763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language understanding in speech-based systems have attracted much attention
in recent years with the growing demand for voice interface applications.
However, the robustness of natural language understanding (NLU) systems to
errors introduced by automatic speech recognition (ASR) is under-examined. %To
facilitate the research on ASR-robust general language understanding, In this
paper, we propose ASR-GLUE benchmark, a new collection of 6 different NLU tasks
for evaluating the performance of models under ASR error across 3 different
levels of background noise and 6 speakers with various voice characteristics.
Based on the proposed benchmark, we systematically investigate the effect of
ASR error on NLU tasks in terms of noise intensity, error type and speaker
variants. We further purpose two ways, correction-based method and data
augmentation-based method to improve robustness of the NLU systems. Extensive
experimental results and analysises show that the proposed methods are
effective to some extent, but still far from human performance, demonstrating
that NLU under ASR error is still very challenging and requires further
research.
- Abstract(参考訳): 近年,音声インタフェースアプリケーションの需要が高まる中,音声システムにおける言語理解が注目されている。
しかし,自動音声認識(ASR)による誤りに対する自然言語理解(NLU)システムの堅牢性は未検討である。
ASR-GLUEベンチマーク(ASR-GLUEベンチマーク)は,3段階の背景雑音と6種類の音声特性を持つ6つの話者に対して,ASR誤差下でのモデルの性能を評価するための6種類のNLUタスクの新たなコレクションである。
提案したベンチマークに基づいて,雑音強度,誤差型,話者変動量の観点から,ASR誤差がNLUタスクに与える影響を系統的に検討する。
さらに,NLUシステムのロバスト性を改善するために,補正法とデータ拡張法という2つの方法を提案する。
広範な実験結果と分析により、提案手法はある程度有効であるが、ヒトのパフォーマンスには程遠いことが示され、asrエラー下のnluは依然として非常に困難であり、さらなる研究が必要であることが示されている。
関連論文リスト
- Interventional Speech Noise Injection for ASR Generalizable Spoken Language Understanding [26.98755758066905]
我々は、SLUモデルをASRシステムでよく見られる雑音に曝すことにより、ASRエラーに耐えるように訓練する。
本稿では,任意のASRシステムに適用可能な雑音を導入するための,新しい,バイアスの少ない拡張手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:13:22Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Multimodal Audio-textual Architecture for Robust Spoken Language
Understanding [18.702076738332867]
マルチモーダル言語理解 (MLU) モジュールは、ASR文字の誤りによるSLUの性能劣化を軽減するために提案されている。
本モデルは,3つのSLUデータセットから5つのタスクに対して評価し,3つのASRエンジンからのASR転写を用いてロバスト性を検証した。
その結果、提案手法は、学術的ASRエンジンの全てのデータセットでPLMモデルの性能を上回り、ASRエラー伝播問題を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2023-06-12T01:55:53Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Cross-sentence Neural Language Models for Conversational Speech
Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。
また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文 参考訳(メタデータ) (2021-06-13T05:30:16Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。