Fugu-MT 論文翻訳(概要): End-to-End Speech to Intent Prediction to improve E-commerce Customer Support Voicebot in Hindi and English

論文の概要: End-to-End Speech to Intent Prediction to improve E-commerce Customer Support Voicebot in Hindi and English

arxiv url: http://arxiv.org/abs/2211.07710v1
Date: Wed, 26 Oct 2022 18:29:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-20 14:15:20.019504
Title: End-to-End Speech to Intent Prediction to improve E-commerce Customer Support Voicebot in Hindi and English
Title（参考訳）: ヒンディー語と英語におけるEコマースカスタマーサポートボイスボット改善のための会話の終末予測
Authors: Abhinav Goyal, Anupam Singh, Nikesh Garera
Abstract要約: 本稿では、カスタマーサポート音声ボットタスクのためのエンドツーエンド(E2E)S2Iモデルをバイリンガル環境で論じる。本稿では, 事前学習された自動音声認識(ASR)モデルを用いて, 少量の注釈付きデータセットを微調整することで, E2Eの意図分類を解く方法について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automation of on-call customer support relies heavily on accurate and efficient speech-to-intent (S2I) systems. Building such systems using multi-component pipelines can pose various challenges because they require large annotated datasets, have higher latency, and have complex deployment. These pipelines are also prone to compounding errors. To overcome these challenges, we discuss an end-to-end (E2E) S2I model for customer support voicebot task in a bilingual setting. We show how we can solve E2E intent classification by leveraging a pre-trained automatic speech recognition (ASR) model with slight modification and fine-tuning on small annotated datasets. Experimental results show that our best E2E model outperforms a conventional pipeline by a relative ~27% on the F1 score.
Abstract（参考訳）: オンコールカスタマーサポートの自動化は、正確で効率的なs2iシステムに大きく依存している。マルチコンポーネントパイプラインを使用したシステムの構築には,大規模なアノテートデータセットが必要で,レイテンシが高く,デプロイが複雑であるため,さまざまな課題が発生する可能性がある。これらのパイプラインはエラーを複雑にする傾向がある。これらの課題を克服するために、両言語環境でカスタマーサポート音声ボットタスクのためのエンド・ツー・エンド(E2E)S2Iモデルについて議論する。本稿では, 事前学習された自動音声認識(ASR)モデルを用いて, 小さな注釈付きデータセットを微調整してE2E意図分類を解く方法について述べる。実験結果から,F1スコアにおいて,E2Eモデルが従来のパイプラインよりも27%高い性能を示した。

関連論文リスト

Speculative End-Turn Detector for Efficient Speech Chatbot Assistant [11.136112399898481]
エンドターン検出のための最初の公開データセットであるETDデータセットを紹介する。また,資源制約環境におけるリアルタイムETDを改善するために,効率と精度のバランスをとる新しい協調推論フレームワークであるSpeculativeETDを提案する。実験により,提案したSpeculativeETDは,必要な計算量を低く保ちながら,ETDの精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-03-30T13:34:23Z)
ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems [57.806797579986075]
本稿では,各種ケースドおよびE2E音声対話システムのための統一Webインターフェースを構築するための,オープンソースのユーザフレンドリなツールキットを提案する。評価指標を用いて,音声対話システムおよびE2E音声対話システムと人間の会話データセットをプロキシとして比較した。我々の分析は、このツールキットが研究者に、異なる技術の比較と対比を行なわせることを実証している。
論文参考訳（メタデータ） (2025-03-11T15:24:02Z)
Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-02T05:19:49Z)
Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文参考訳（メタデータ） (2022-08-20T06:46:55Z)
Contextual Density Ratio for Language Model Biasing of Sequence to Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文参考訳（メタデータ） (2022-06-29T13:12:46Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
Exploring Transfer Learning For End-to-End Spoken Language Understanding [8.317084844841323]
スピーチから仮説に直接移動するエンドツーエンド(E2E)システムは、より魅力的なオプションです。音声からテキストまでの複数のタスクを共同トレーニングするE2Eシステムを提案する。個々のタスクで訓練されたE2Eモデルの性能を上回ります。
論文参考訳（メタデータ） (2020-12-15T19:02:15Z)
Tie Your Embeddings Down: Cross-Modal Latent Spaces for End-to-end Spoken Language Understanding [14.752834813510702]
我々はE2Eシステムをマルチモーダルモデルとして扱い、音声とテキストを2つのモーダルとして機能させる。テキスト埋め込みに近い音響埋め込みを誘導するために,異なるマルチモーダルな損失を用いることを提案する。 CMLSモデルを2つの公開E2Eデータセット上にトレーニングし,提案した三重項損失関数が最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2020-11-18T02:32:42Z)
Decoupling Pronunciation and Language for End-to-end Code-switching Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文参考訳（メタデータ） (2020-10-28T07:46:15Z)
Improving Tail Performance of a Deliberation E2E ASR Model Using a Large Text Corpus [35.45918249451485]
E2E(End-to-end)自動音声認識システムには、従来の音声システムの特徴を特徴付ける言語モデル(LM)コンポーネントが欠如している。推定時にE2Eモデルに事前学習したLMを組み込む方法として浅層核融合法が提案されている。我々は、非常に大きなテキストコーパスを最先端のE2EASRモデルに組み込むために浅い融合を適用する。
論文参考訳（メタデータ） (2020-08-24T14:53:10Z)
End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文参考訳（メタデータ） (2020-05-22T13:39:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。