論文の概要: Contextual ASR Error Handling with LLMs Augmentation for Goal-Oriented Conversational AI
- arxiv url: http://arxiv.org/abs/2501.06129v1
- Date: Fri, 10 Jan 2025 17:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:27.075561
- Title: Contextual ASR Error Handling with LLMs Augmentation for Goal-Oriented Conversational AI
- Title(参考訳): ゴール指向会話型AIのためのLLMによる文脈的ASR誤り処理
- Authors: Yuya Asano, Sabit Hassan, Paras Sharma, Anthony Sicilia, Katherine Atwell, Diane Litman, Malihe Alikhani,
- Abstract要約: 汎用自動音声認識(ASR)システムは、目標指向対話において必ずしもよく機能しない。
我々は、事前のユーザデータを持たないタスクに修正を拡張し、語彙や構文の変化のような言語的柔軟性を示す。
- 参考スコア(独自算出の注目度): 27.56203179880491
- License:
- Abstract: General-purpose automatic speech recognition (ASR) systems do not always perform well in goal-oriented dialogue. Existing ASR correction methods rely on prior user data or named entities. We extend correction to tasks that have no prior user data and exhibit linguistic flexibility such as lexical and syntactic variations. We propose a novel context augmentation with a large language model and a ranking strategy that incorporates contextual information from the dialogue states of a goal-oriented conversational AI and its tasks. Our method ranks (1) n-best ASR hypotheses by their lexical and semantic similarity with context and (2) context by phonetic correspondence with ASR hypotheses. Evaluated in home improvement and cooking domains with real-world users, our method improves recall and F1 of correction by 34% and 16%, respectively, while maintaining precision and false positive rate. Users rated .8-1 point (out of 5) higher when our correction method worked properly, with no decrease due to false positives.
- Abstract(参考訳): 汎用自動音声認識(ASR)システムは、目標指向対話において必ずしもよく機能しない。
既存のASR補正手法は、以前のユーザデータや名前付きエンティティに依存している。
我々は、事前のユーザデータを持たないタスクに修正を拡張し、語彙や構文の変化のような言語的柔軟性を示す。
本稿では,目標指向対話型AIとそのタスクの対話状態からコンテキスト情報を取り入れた,大規模言語モデルとランキング戦略を用いた新しい文脈拡張を提案する。
本手法は,(1) 文脈との語彙的・意味的類似性によるn-best ASR仮説と,(2) ASR仮説との音声対応による文脈のランク付けを行う。
実世界のユーザを対象とした家庭内改善と調理領域の評価を行い、精度と偽陽性率を維持しつつ、リコール率とF1補正率を34%、F1補正率を16%改善した。
修正法が正常に動作した場合の.8-1点(5点中5点)は,偽陽性による低下は認められなかった。
関連論文リスト
- Keyword-Aware ASR Error Augmentation for Robust Dialogue State Tracking [17.96115263146684]
本稿では,対話状態追跡モデルのロバスト性を改善するために,シンプルながら効果的なデータ拡張手法を提案する。
提案手法は,キーワードの誤りパターンを十分に生成し,雑音および低精度のASR環境における精度を向上させる。
論文 参考訳(メタデータ) (2024-09-10T07:06:40Z) - Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning [6.363223418619587]
本研究では,CNRL(Context Noise Representation Learning)を導入し,雑音に対する堅牢性を向上し,対話音声認識の精度を向上する。
本手法は,音声対話の評価に基づいて,ベースラインよりも優れた結果を示す。
論文 参考訳(メタデータ) (2024-08-12T10:21:09Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Contrastive Learning for Improving ASR Robustness in Spoken Language
Understanding [28.441725610692714]
本稿では,ASRの誤りに対して頑健な発話表現を,対照的な目的を用いて学習することに焦点を当てる。
3つのベンチマークデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-02T07:21:21Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - ASR Error Correction and Domain Adaptation Using Machine Translation [32.27379508770736]
機械翻訳によるASR誤り訂正のための領域適応手法を提案する。
Google ASR出力における単語誤り率の絶対的改善とBLEUスコアの4点絶対的改善を観察した。
論文 参考訳(メタデータ) (2020-03-13T20:05:38Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。