論文の概要: User-Initiated Repetition-Based Recovery in Multi-Utterance Dialogue
Systems
- arxiv url: http://arxiv.org/abs/2108.01208v1
- Date: Mon, 2 Aug 2021 23:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 13:55:15.104628
- Title: User-Initiated Repetition-Based Recovery in Multi-Utterance Dialogue
Systems
- Title(参考訳): 複数発話対話システムにおけるユーザ主導の繰り返しに基づくリカバリ
- Authors: Hoang Long Nguyen, Vincent Renkens, Joris Pelemans, Srividya Pranavi
Potharaju, Anil Kumar Nalamalapu, Murat Akbacak
- Abstract要約: 本稿では,誤解された単語を繰り返すことで,仮想アシスタントの音声認識誤りを補正するシステムを提案する。
ユーザがフレーズの一部を繰り返すと、システムは元のクエリを書き換えて修正を組み込む。
元のクエリを書き直すことは、繰り返しベースのリカバリを扱う効果的な方法であることを示す。
- 参考スコア(独自算出の注目度): 3.20350998499235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognition errors are common in human communication. Similar errors often
lead to unwanted behaviour in dialogue systems or virtual assistants. In human
communication, we can recover from them by repeating misrecognized words or
phrases; however in human-machine communication this recovery mechanism is not
available. In this paper, we attempt to bridge this gap and present a system
that allows a user to correct speech recognition errors in a virtual assistant
by repeating misunderstood words. When a user repeats part of the phrase the
system rewrites the original query to incorporate the correction. This rewrite
allows the virtual assistant to understand the original query successfully. We
present an end-to-end 2-step attention pointer network that can generate the
the rewritten query by merging together the incorrectly understood utterance
with the correction follow-up. We evaluate the model on data collected for this
task and compare the proposed model to a rule-based baseline and a standard
pointer network. We show that rewriting the original query is an effective way
to handle repetition-based recovery and that the proposed model outperforms the
rule based baseline, reducing Word Error Rate by 19% relative at 2% False Alarm
Rate on annotated data.
- Abstract(参考訳): 認識エラーは人間のコミュニケーションによく見られる。
同様のエラーは、しばしば対話システムや仮想アシスタントにおいて望ましくない振る舞いを引き起こす。
人間同士のコミュニケーションでは、誤認識された単語やフレーズを繰り返し繰り返すことで回復することができるが、人間同士のコミュニケーションでは、この回復メカニズムは利用できない。
本稿では,このギャップを埋めて,誤解された単語を繰り返すことで,仮想アシスタントの音声認識誤差を補正するシステムを提案する。
ユーザがフレーズの一部を繰り返すと、システムは元のクエリを書き換えて修正を組み込む。
この書き換えにより、仮想アシスタントは元のクエリをうまく理解することができる。
本稿では,不正確に理解された発話と訂正のフォローアップを融合することにより,書き直しクエリを生成できる,エンドツーエンドの2段階注意ポインタネットワークを提案する。
このタスクのために収集したデータに関するモデルを評価し,提案モデルをルールベースベースラインと標準ポインターネットワークと比較する。
また,提案手法が規則ベースのベースラインを上回り,アノテートされたデータに対して2%の誤報率で単語誤り率を19%削減することを示した。
関連論文リスト
- Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - Improving Speech Recognition Error Prediction for Modern and Off-the-shelf Speech Recognizers [15.74988399856102]
我々は、音声認識誤りを2つの方法で予測するために、事前の音声混乱に基づくモデルを拡張した。
後部音響モデルの振舞いをより良くシミュレートするサンプリングベースパラダイムを提案する。
まず,Switchboard ASRシステムのエラーを未知のデータ上で予測し,次に,同じ予測器を用いて,無関係なクラウドベースのASRシステムの挙動を推定する。
論文 参考訳(メタデータ) (2024-08-21T00:48:03Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Self-consistent context aware conformer transducer for speech recognition [0.06008132390640294]
ニューラルネットワークアーキテクチャにおいて、再帰的なデータフローを順応的に処理する新しいニューラルネットワークモジュールを導入する。
本手法は, 単語誤り率に悪影響を及ぼすことなく, 稀な単語の認識精度を向上させる。
その結果,両手法の組み合わせにより,まれな単語を最大4.5倍の精度で検出できることが判明した。
論文 参考訳(メタデータ) (2024-02-09T18:12:11Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Personalized Query Rewriting in Conversational AI Agents [7.086654234990377]
本稿では,ユーザの歴史的に成功したインタラクションをメモリとして活用し,クエリ書き換え手法を提案する。
ニューラルネットワークモデルとポインタジェネレータネットワークに階層的な注意を払い、上述したユーザ記憶を用いたクエリ書き換えタスクにおいて、より優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-11-09T20:45:39Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。