論文の概要: Keyword-Aware ASR Error Augmentation for Robust Dialogue State Tracking
- arxiv url: http://arxiv.org/abs/2409.06263v1
- Date: Tue, 10 Sep 2024 07:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 18:50:07.713058
- Title: Keyword-Aware ASR Error Augmentation for Robust Dialogue State Tracking
- Title(参考訳): ロバスト対話状態追跡のためのキーワード認識型ASR誤り増大
- Authors: Jihyun Lee, Solee Im, Wonjun Lee, Gary Geunbae Lee,
- Abstract要約: 本稿では,対話状態追跡モデルのロバスト性を改善するために,シンプルながら効果的なデータ拡張手法を提案する。
提案手法は,キーワードの誤りパターンを十分に生成し,雑音および低精度のASR環境における精度を向上させる。
- 参考スコア(独自算出の注目度): 17.96115263146684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue State Tracking (DST) is a key part of task-oriented dialogue systems, identifying important information in conversations. However, its accuracy drops significantly in spoken dialogue environments due to named entity errors from Automatic Speech Recognition (ASR) systems. We introduce a simple yet effective data augmentation method that targets those entities to improve the robustness of DST model. Our novel method can control the placement of errors using keyword-highlighted prompts while introducing phonetically similar errors. As a result, our method generated sufficient error patterns on keywords, leading to improved accuracy in noised and low-accuracy ASR environments.
- Abstract(参考訳): 対話状態追跡(DST)はタスク指向の対話システムにおいて重要な部分であり、会話における重要な情報を特定する。
しかし、その精度は、自動音声認識(ASR)システムから命名されたエンティティエラーにより、音声対話環境において著しく低下する。
DSTモデルのロバスト性を改善するために,これらのエンティティをターゲットとした,シンプルで効果的なデータ拡張手法を提案する。
提案手法は,音声的に類似した誤りを導入しながら,キーワードハイライトのプロンプトを用いて誤りの配置を制御できる。
その結果,提案手法はキーワードの誤りパターンを十分に生成し,雑音および低精度のASR環境における精度を向上させることができた。
関連論文リスト
- Beyond Ontology in Dialogue State Tracking for Goal-Oriented Chatbot [3.2288892242158984]
本稿では,対話状態追跡(DST)性能を向上させる新しい手法を提案する。
提案手法により,Large Language Model (LLM) による対話状態の推測が可能となる。
提案手法は,42.57%のJGAで最先端を達成し,オープンドメインの現実世界での会話でも良好に機能した。
論文 参考訳(メタデータ) (2024-10-30T07:36:23Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - ed-cec: improving rare word recognition using asr postprocessing based
on error detection and context-aware error correction [30.486396813844195]
本稿では,誤り検出と文脈認識誤り訂正により,稀な単語の認識を改善することに焦点を当てた新しいASRポストプロセッシング手法を提案する。
5つのデータセットにまたがる実験結果から,提案手法は従来の手法に比べて単語誤り率(WER)が有意に低いことを示す。
論文 参考訳(メタデータ) (2023-10-08T11:40:30Z) - Boosting Chinese ASR Error Correction with Dynamic Error Scaling
Mechanism [27.09416337926635]
現在の主流モデルは、しばしば単語レベルの特徴と音声情報を効果的に活用するのに苦労する。
本稿では,音素の誤りを検知し,訂正する動的エラースケーリング機構を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T09:19:59Z) - Prompt Learning for Few-Shot Dialogue State Tracking [75.50701890035154]
本稿では,限られたラベル付きデータを用いて,対話状態追跡(DST)モデルを効率的に学習する方法に焦点を当てる。
本稿では,2つの主要なコンポーネントである値ベースプロンプトと逆プロンプト機構からなる,数ショットDSTのためのプロンプト学習フレームワークを設計する。
実験により、我々のモデルは未確認のスロットを生成し、既存の最先端の数ショット法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-15T07:37:33Z) - Data Augmentation for Training Dialog Models Robust to Speech
Recognition Errors [5.53506103787497]
Amazon Alexa、Google Assistant、Apple Siriなどの音声ベースのバーチャルアシスタントは、通常、ユーザーの音声信号を自動音声認識(ASR)を通じてテキストデータに変換する。
ASR出力はエラーを起こしやすいが、下流のダイアログモデルはしばしばエラーのないテキストデータに基づいて訓練され、推論時間中にASRエラーに敏感になる。
我々は、ASRエラーシミュレータを利用して、エラーのないテキストデータにノイズを注入し、その後、拡張データでダイアログモデルを訓練する。
論文 参考訳(メタデータ) (2020-06-10T03:18:15Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。