論文の概要: Calibrate and Refine! A Novel and Agile Framework for ASR-error Robust
Intent Detection
- arxiv url: http://arxiv.org/abs/2205.11008v1
- Date: Mon, 23 May 2022 02:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 13:26:48.304903
- Title: Calibrate and Refine! A Novel and Agile Framework for ASR-error Robust
Intent Detection
- Title(参考訳): Calibrate and Refine!
ASR-error Robust Intent Detectionのための新しいアジャイルフレームワーク
- Authors: Peilin Zhou, Dading Chong, Helin Wang, Qingcheng Zeng
- Abstract要約: 本稿では,2つのプラグ・アンド・プレイモジュールを用いたASRエラー頑健な意図検出のためのCR-IDという新しいフレームワークを提案する。
SNIPSデータセットによる実験結果から,提案するCR-IDフレームワークが競合性能を実現することを示す。
- 参考スコア(独自算出の注目度): 8.842878491315124
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The past ten years have witnessed the rapid development of text-based intent
detection, whose benchmark performances have already been taken to a remarkable
level by deep learning techniques. However, automatic speech recognition (ASR)
errors are inevitable in real-world applications due to the environment noise,
unique speech patterns and etc, leading to sharp performance drop in
state-of-the-art text-based intent detection models. Essentially, this
phenomenon is caused by the semantic drift brought by ASR errors and most
existing works tend to focus on designing new model structures to reduce its
impact, which is at the expense of versatility and flexibility. Different from
previous one-piece model, in this paper, we propose a novel and agile framework
called CR-ID for ASR error robust intent detection with two plug-and-play
modules, namely semantic drift calibration module (SDCM) and phonemic
refinement module (PRM), which are both model-agnostic and thus could be easily
integrated to any existing intent detection models without modifying their
structures. Experimental results on SNIPS dataset show that, our proposed CR-ID
framework achieves competitive performance and outperform all the baseline
methods on ASR outputs, which verifies that CR-ID can effectively alleviate the
semantic drift caused by ASR errors.
- Abstract(参考訳): 過去10年間、テキストベースのインテント検出が急速に発展し、そのベンチマークパフォーマンスはディープラーニング技術によってすでに目覚ましいレベルに達している。
しかし、環境ノイズや独特の音声パターンなどにより、現実のアプリケーションでは自動音声認識(asr)の誤りは避けられないため、最先端のテキストに基づく意図検出モデルの性能低下に繋がる。
基本的に、この現象は、ASRのエラーによって引き起こされた意味的ドリフトによって引き起こされるものであり、既存のほとんどの研究は、その影響を減らすために新しいモデル構造を設計することに集中する傾向がある。
従来の一要素モデルとは違って,本研究では,意味的ドリフトキャリブレーションモジュール(SDCM)と音素改善モジュール(PRM)という2つのプラグアンドプレイモジュールを用いた,ASRエラーの堅牢な意図検出のためのCR-IDという新しいアジャイルフレームワークを提案する。
snipsデータセットにおける実験結果から,提案するcr-idフレームワークが競合性能を達成し,asr出力のベースラインメソッドを上回り,asrエラーによる意味的ドリフトを効果的に軽減できることを確認した。
関連論文リスト
- Transferable Adversarial Attacks against ASR [43.766547483367795]
最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。
そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。
総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T06:32:31Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Quantifying the Role of Textual Predictability in Automatic Speech Recognition [13.306122574236232]
音声認識研究における長年の疑問は、エラーを音響をモデル化するモデルの能力にどのように属性付けるかである。
テキストの相対的予測可能性の関数として誤り率をモデル化する新しい手法を検証する。
本稿では,ASRの診断と改善において,このアプローチがいかに簡単に利用できるかを示す。
論文 参考訳(メタデータ) (2024-07-23T14:47:25Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Boosting Chinese ASR Error Correction with Dynamic Error Scaling
Mechanism [27.09416337926635]
現在の主流モデルは、しばしば単語レベルの特徴と音声情報を効果的に活用するのに苦労する。
本稿では,音素の誤りを検知し,訂正する動的エラースケーリング機構を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T09:19:59Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。