論文の概要: ASR Adaptation for E-commerce Chatbots using Cross-Utterance Context and
Multi-Task Language Modeling
- arxiv url: http://arxiv.org/abs/2106.09532v1
- Date: Tue, 15 Jun 2021 21:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 13:36:11.957102
- Title: ASR Adaptation for E-commerce Chatbots using Cross-Utterance Context and
Multi-Task Language Modeling
- Title(参考訳): クロス発話コンテキストとマルチタスク言語モデリングを用いたeコマースチャットボットのasr適応
- Authors: Ashish Shenoy, Sravan Bodapati, Katrin Kirchhoff
- Abstract要約: クロス発話の文脈的手がかりは、音声からドメイン固有の内容語を曖昧にするのに重要な役割を担っている。
本稿では, Transformer-XL Neural Language Model (NLM) の文脈化, 内容語頑健性, ドメイン適応性を改善するための様々な手法について検討する。
我々の最高のNLMリスコラーは、Eコマースオーディオテストセットで19.2%のコンテンツWER削減と6.4%のスロットラベルF1の改善をもたらす。
- 参考スコア(独自算出の注目度): 11.193867567895353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) robustness toward slot entities are
critical in e-commerce voice assistants that involve monetary transactions and
purchases. Along with effective domain adaptation, it is intuitive that cross
utterance contextual cues play an important role in disambiguating domain
specific content words from speech. In this paper, we investigate various
techniques to improve contextualization, content word robustness and domain
adaptation of a Transformer-XL neural language model (NLM) to rescore ASR
N-best hypotheses. To improve contextualization, we utilize turn level dialogue
acts along with cross utterance context carry over. Additionally, to adapt our
domain-general NLM towards e-commerce on-the-fly, we use embeddings derived
from a finetuned masked LM on in-domain data. Finally, to improve robustness
towards in-domain content words, we propose a multi-task model that can jointly
perform content word detection and language modeling tasks. Compared to a
non-contextual LSTM LM baseline, our best performing NLM rescorer results in a
content WER reduction of 19.2% on e-commerce audio test set and a slot labeling
F1 improvement of 6.4%.
- Abstract(参考訳): スロットエンティティに対するASR(Automatic Speech Recognition)の堅牢性は、金融取引や購入を含むEコマース音声アシスタントにおいて重要である。
ドメイン適応の有効化とともに、クロス発話の文脈的手がかりが、音声からドメイン固有の内容語を曖昧にするために重要な役割を果たすことは直感的である。
本稿では,ASR N-best仮説の再検討のために,Transformer-XLニューラル言語モデル(NLM)の文脈化,内容語頑健性,ドメイン適応性を改善する様々な手法について検討する。
文脈化を改善するために,対話行動のターンレベルと発話コンテキストの相互変換を併用する。
さらに、ドメインジェネラルなNLMをオンザフライでeコマースに適応させるために、ドメイン内のデータに微調整されたマスク付きLMから派生した埋め込みを使用します。
最後に、ドメイン内コンテンツワードに対するロバスト性を改善するために、コンテンツ単語の検出と言語モデリングを協調的に行うマルチタスクモデルを提案する。
非コンテクストのLSTM LMベースラインと比較して、最高のNLMリスコラは、Eコマースオーディオテストセットで19.2%のコンテンツWER削減と6.4%のスロットラベルF1の改善をもたらす。
関連論文リスト
- Intent-Aware Dialogue Generation and Multi-Task Contrastive Learning for Multi-Turn Intent Classification [6.459396785817196]
Chain-of-Intentは、セルフプレイを通じて意図駆動の会話を生成する。
MINT-CLはマルチタスクコントラスト学習を用いたマルチターンインテント分類のためのフレームワークである。
MINT-Eは多言語対応のマルチターンeコマース対話コーパスである。
論文 参考訳(メタデータ) (2024-11-21T15:59:29Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - Retrieval Augmented End-to-End Spoken Dialog Models [20.896330994089283]
音声信号から直接ダイアログ状態が推測される音声対話アプリケーションにSLMを適用する。
RAG(retrieval-augmented generation)パラダイムにヒントを得て,この弱点を克服する検索拡張SLM(ReSLM)を提案する。
音声MultipleWozタスク(DSTC-11チャレンジ)を用いてReSLMを評価し,この検索によりモデル性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-02-02T18:23:09Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - "What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in
Conversational Agents [13.586996848831543]
ターンベースのコンテキスト履歴をリカレント(LSTM)とトランスフォーマXLベースのNLMの両方に組み込むための様々な手法を検討します。
リカレントベースのnlmでは、コンテキストがメカニズムと機能ベースの拡張を継承する。
我々は,事前学習されたマスキング言語モデルからの符号化を活用し,ユーザのオンザフライ音声パターンに文脈的nlmを適用する。
論文 参考訳(メタデータ) (2021-04-21T00:15:21Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。