論文の概要: Interventional Speech Noise Injection for ASR Generalizable Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2410.15609v1
- Date: Mon, 21 Oct 2024 03:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:04.845808
- Title: Interventional Speech Noise Injection for ASR Generalizable Spoken Language Understanding
- Title(参考訳): ASR一般化音声言語理解のためのインターベンショナル音声ノイズ注入
- Authors: Yeonjoon Jung, Jaeseong Lee, Seungtaek Choi, Dohyeon Lee, Minsoo Kim, Seung-won Hwang,
- Abstract要約: 我々は、SLUモデルをASRシステムでよく見られる雑音に曝すことにより、ASRエラーに耐えるように訓練する。
本稿では,任意のASRシステムに適用可能な雑音を導入するための,新しい,バイアスの少ない拡張手法を提案する。
- 参考スコア(独自算出の注目度): 26.98755758066905
- License:
- Abstract: Recently, pre-trained language models (PLMs) have been increasingly adopted in spoken language understanding (SLU). However, automatic speech recognition (ASR) systems frequently produce inaccurate transcriptions, leading to noisy inputs for SLU models, which can significantly degrade their performance. To address this, our objective is to train SLU models to withstand ASR errors by exposing them to noises commonly observed in ASR systems, referred to as ASR-plausible noises. Speech noise injection (SNI) methods have pursued this objective by introducing ASR-plausible noises, but we argue that these methods are inherently biased towards specific ASR systems, or ASR-specific noises. In this work, we propose a novel and less biased augmentation method of introducing the noises that are plausible to any ASR system, by cutting off the non-causal effect of noises. Experimental results and analyses demonstrate the effectiveness of our proposed methods in enhancing the robustness and generalizability of SLU models against unseen ASR systems by introducing more diverse and plausible ASR noises in advance.
- Abstract(参考訳): 近年,音声言語理解 (SLU) において,プレトレーニング言語モデル (PLM) がますます採用されている。
しかし、自動音声認識(ASR)システムは、しばしば不正確な書き起こしを発生させ、SLUモデルのノイズの多い入力を発生させ、その性能を著しく低下させる。
本研究の目的は,ASR-plausible noises(ASR-plausible noises)と呼ばれる,ASRシステムでよく見られる雑音に照らして,SLUモデルをASR誤差に耐える訓練を行うことである。
音声ノイズ注入法(SNI)は,ASRに有意な雑音を導入することによってこの目的を追求してきたが,これらの手法は本質的に特定のASRシステム,すなわちASR固有の雑音に偏っていると論じる。
本研究では, 雑音の非因果効果を遮断し, 任意のASRシステムに適用可能な雑音を導入する手法を提案する。
実験結果と解析結果から,SLUモデルが未確認のASRシステムに対して,より多種多様で高機能なASRノイズを事前に導入することにより,SLUモデルの堅牢性と一般化性を向上させる方法の有効性が示された。
関連論文リスト
- MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues [41.23757609484281]
音声認識エラーは、要約のような下流タスクのパフォーマンスを著しく低下させる可能性がある。
大規模言語モデルを用いたデータ拡張のための合成サンプル生成手法であるMEDSAGEを提案する。
LLMは、ASRノイズを効果的にモデル化することができ、このノイズデータをトレーニングプロセスに組み込むことで、医用対話要約システムの堅牢性と精度が大幅に向上する。
論文 参考訳(メタデータ) (2024-08-26T17:04:00Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models [21.85677682584916]
投機的音声認識(SSR)
本稿では、RNN-Transducer-based ASRシステムと音声処理言語モデル(LM)を組み合わせたSSRモデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:52:55Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - On the Effectiveness of ASR Representations in Real-world Noisy Speech
Emotion Recognition [26.013815255299342]
音声の感情認識(NSER)を効果的に行う試みを提案する。
ノイズキャンバス特徴抽出器として自動音声認識(ASR)モデルを採用し,雑音の多い音声の非音声情報を除去する。
実験の結果,提案手法は従来のノイズ低減法に比べてNSER性能が向上し,2)自己教師あり学習手法よりも優れ,3)ASR文字起こしや音声音声の真理書き起こしによるテキストベースアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T05:45:55Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - ASR-GLUE: A New Multi-task Benchmark for ASR-Robust Natural Language
Understanding [42.80343041535763]
自動音声認識(ASR)による誤りに対する自然言語理解システムの堅牢性について検討する。
ASR-GLUEベンチマーク(ASR-GLUE benchmark)は、ASRエラー下でのモデルの性能を評価するための6つの異なるNLUタスクの新たなコレクションである。
論文 参考訳(メタデータ) (2021-08-30T08:11:39Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。