論文の概要: Exploring Transfer Learning For End-to-End Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2012.08549v1
- Date: Tue, 15 Dec 2020 19:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 08:55:13.914456
- Title: Exploring Transfer Learning For End-to-End Spoken Language Understanding
- Title(参考訳): エンドツーエンドの音声言語理解のためのトランスファー学習の探索
- Authors: Subendhu Rongali, Beiye Liu, Liwei Cai, Konstantine Arkoudas, Chengwei
Su, and Wael Hamza
- Abstract要約: スピーチから仮説に直接移動するエンドツーエンド(E2E)システムは、より魅力的なオプションです。
音声からテキストまでの複数のタスクを共同トレーニングするE2Eシステムを提案する。
個々のタスクで訓練されたE2Eモデルの性能を上回ります。
- 参考スコア(独自算出の注目度): 8.317084844841323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice Assistants such as Alexa, Siri, and Google Assistant typically use a
two-stage Spoken Language Understanding pipeline; first, an Automatic Speech
Recognition (ASR) component to process customer speech and generate text
transcriptions, followed by a Natural Language Understanding (NLU) component to
map transcriptions to an actionable hypothesis. An end-to-end (E2E) system that
goes directly from speech to a hypothesis is a more attractive option. These
systems were shown to be smaller, faster, and better optimized. However, they
require massive amounts of end-to-end training data and in addition, don't take
advantage of the already available ASR and NLU training data.
In this work, we propose an E2E system that is designed to jointly train on
multiple speech-to-text tasks, such as ASR (speech-transcription) and SLU
(speech-hypothesis), and text-to-text tasks, such as NLU (text-hypothesis). We
call this the Audio-Text All-Task (AT-AT) Model and we show that it beats the
performance of E2E models trained on individual tasks, especially ones trained
on limited data. We show this result on an internal music dataset and two
public datasets, FluentSpeech and SNIPS Audio, where we achieve
state-of-the-art results. Since our model can process both speech and text
input sequences and learn to predict a target sequence, it also allows us to do
zero-shot E2E SLU by training on only text-hypothesis data (without any speech)
from a new domain. We evaluate this ability of our model on the Facebook TOP
dataset and set a new benchmark for zeroshot E2E performance. We will soon
release the audio data collected for the TOP dataset for future research.
- Abstract(参考訳): Alexa、Siri、Google Assistantなどの音声アシスタントは通常、2段階の音声理解パイプラインを使用する。まず、顧客音声を処理してテキストの書き起こしを生成する自動音声認識(ASR)コンポーネント、続いて自然言語理解(NLU)コンポーネントを使用して、書き起こしを実行可能な仮説にマッピングする。
音声から仮説へ直接移動するエンドツーエンド(E2E)システムは、より魅力的な選択肢である。
これらのシステムはより小さく、より速く、より最適化された。
しかし、それらは大量のエンドツーエンドのトレーニングデータを必要とし、さらに、既に利用可能なASRとNLUのトレーニングデータを利用できない。
本研究では,音声合成やSLU (speech-hypothesis)やNLU (text-hypothesis)などのテキスト・テキスト・タスクを共同で学習するE2Eシステムを提案する。
我々はこれをAudio-Text All-Task (AT-AT) Modelと呼び、個々のタスク、特に限られたデータでトレーニングされたE2Eモデルのパフォーマンスを上回ります。
この結果は、内部音楽データセットと2つの公開データセット、fluentspeech と snips audioで示され、最先端の結果を得る。
我々のモデルは、音声とテキストの両方の入力シーケンスを処理し、ターゲットシーケンスを予測することができるので、新しいドメインからのテキストハイブリッドデータのみをトレーニングすることで、ゼロショットE2E SLUを実行できる。
我々はこのモデルをfacebook top dataset上で評価し、zeroshot e2eパフォーマンスの新しいベンチマークを設定した。
今後,TOPデータセットから収集した音声データについて検討する。
関連論文リスト
- Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - Improving End-to-End Speech Processing by Efficient Text Data
Utilization with Latent Synthesis [17.604583337593677]
高性能エンドツーエンド音声(E2E)処理モデルの訓練には,大量のラベル付き音声データが必要となる。
E2E音声処理モデルのための効率的なテキストデータ利用フレームワークLaSynを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:10:49Z) - Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - End-to-End Spoken Language Understanding: Performance analyses of a
voice command task in a low resource setting [0.3867363075280543]
本稿では,E2Eモデルを用いて音声言語理解タスクを実行するための信号特徴と他の言語特性を同定する。
この研究は、英語以外の音声コマンドを処理しなければならないスマートホームのアプリケーションドメインで実施されている。
論文 参考訳(メタデータ) (2022-07-17T13:51:56Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。