論文の概要: End-to-End Speech to Intent Prediction to improve E-commerce Customer
Support Voicebot in Hindi and English
- arxiv url: http://arxiv.org/abs/2211.07710v1
- Date: Wed, 26 Oct 2022 18:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 14:15:20.019504
- Title: End-to-End Speech to Intent Prediction to improve E-commerce Customer
Support Voicebot in Hindi and English
- Title(参考訳): ヒンディー語と英語におけるEコマースカスタマーサポートボイスボット改善のための会話の終末予測
- Authors: Abhinav Goyal, Anupam Singh, Nikesh Garera
- Abstract要約: 本稿では、カスタマーサポート音声ボットタスクのためのエンドツーエンド(E2E)S2Iモデルをバイリンガル環境で論じる。
本稿では, 事前学習された自動音声認識(ASR)モデルを用いて, 少量の注釈付きデータセットを微調整することで, E2Eの意図分類を解く方法について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automation of on-call customer support relies heavily on accurate and
efficient speech-to-intent (S2I) systems. Building such systems using
multi-component pipelines can pose various challenges because they require
large annotated datasets, have higher latency, and have complex deployment.
These pipelines are also prone to compounding errors. To overcome these
challenges, we discuss an end-to-end (E2E) S2I model for customer support
voicebot task in a bilingual setting. We show how we can solve E2E intent
classification by leveraging a pre-trained automatic speech recognition (ASR)
model with slight modification and fine-tuning on small annotated datasets.
Experimental results show that our best E2E model outperforms a conventional
pipeline by a relative ~27% on the F1 score.
- Abstract(参考訳): オンコールカスタマーサポートの自動化は、正確で効率的なs2iシステムに大きく依存している。
マルチコンポーネントパイプラインを使用したシステムの構築には,大規模なアノテートデータセットが必要で,レイテンシが高く,デプロイが複雑であるため,さまざまな課題が発生する可能性がある。
これらのパイプラインはエラーを複雑にする傾向がある。
これらの課題を克服するために、両言語環境でカスタマーサポート音声ボットタスクのためのエンド・ツー・エンド(E2E)S2Iモデルについて議論する。
本稿では, 事前学習された自動音声認識(ASR)モデルを用いて, 小さな注釈付きデータセットを微調整してE2E意図分類を解く方法について述べる。
実験結果から,F1スコアにおいて,E2Eモデルが従来のパイプラインよりも27%高い性能を示した。
関連論文リスト
- Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Exploring Transfer Learning For End-to-End Spoken Language Understanding [8.317084844841323]
スピーチから仮説に直接移動するエンドツーエンド(E2E)システムは、より魅力的なオプションです。
音声からテキストまでの複数のタスクを共同トレーニングするE2Eシステムを提案する。
個々のタスクで訓練されたE2Eモデルの性能を上回ります。
論文 参考訳(メタデータ) (2020-12-15T19:02:15Z) - Tie Your Embeddings Down: Cross-Modal Latent Spaces for End-to-end
Spoken Language Understanding [14.752834813510702]
我々はE2Eシステムをマルチモーダルモデルとして扱い、音声とテキストを2つのモーダルとして機能させる。
テキスト埋め込みに近い音響埋め込みを誘導するために,異なるマルチモーダルな損失を用いることを提案する。
CMLSモデルを2つの公開E2Eデータセット上にトレーニングし,提案した三重項損失関数が最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-11-18T02:32:42Z) - Decoupling Pronunciation and Language for End-to-end Code-switching
Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。
モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。
モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文 参考訳(メタデータ) (2020-10-28T07:46:15Z) - Improving Tail Performance of a Deliberation E2E ASR Model Using a Large
Text Corpus [35.45918249451485]
E2E(End-to-end)自動音声認識システムには、従来の音声システムの特徴を特徴付ける言語モデル(LM)コンポーネントが欠如している。
推定時にE2Eモデルに事前学習したLMを組み込む方法として浅層核融合法が提案されている。
我々は、非常に大きなテキストコーパスを最先端のE2EASRモデルに組み込むために浅い融合を適用する。
論文 参考訳(メタデータ) (2020-08-24T14:53:10Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。