論文の概要: A Streaming End-to-End Framework For Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2105.10042v1
- Date: Thu, 20 May 2021 21:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:16:02.011714
- Title: A Streaming End-to-End Framework For Spoken Language Understanding
- Title(参考訳): 音声言語理解のためのストリームエンドツーエンドフレームワーク
- Authors: Nihal Potdar, Anderson R. Avila, Chao Xing, Dong Wang, Yiran Cao, Xiao
Chen
- Abstract要約: オンラインおよびインクリメンタルな方法で複数の意図を処理できるストリーミング・エンド・ツー・エンドのフレームワークを提案する。
提案手法はFluent Speech Commandsデータセット上で評価し,意図検出精度は全マルチインテント設定で約97%である。
- 参考スコア(独自算出の注目度): 11.58499117295424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end spoken language understanding (SLU) has recently attracted
increasing interest. Compared to the conventional tandem-based approach that
combines speech recognition and language understanding as separate modules, the
new approach extracts users' intentions directly from the speech signals,
resulting in joint optimization and low latency. Such an approach, however, is
typically designed to process one intention at a time, which leads users to
take multiple rounds to fulfill their requirements while interacting with a
dialogue system. In this paper, we propose a streaming end-to-end framework
that can process multiple intentions in an online and incremental way. The
backbone of our framework is a unidirectional RNN trained with the
connectionist temporal classification (CTC) criterion. By this design, an
intention can be identified when sufficient evidence has been accumulated, and
multiple intentions can be identified sequentially. We evaluate our solution on
the Fluent Speech Commands (FSC) dataset and the intent detection accuracy is
about 97 % on all multi-intent settings. This result is comparable to the
performance of the state-of-the-art non-streaming models, but is achieved in an
online and incremental way. We also employ our model to a keyword spotting task
using the Google Speech Commands dataset and the results are also highly
promising.
- Abstract(参考訳): エンドツーエンドの音声言語理解(SLU)が最近注目を集めている。
音声認識と言語理解を別々のモジュールとして組み合わせた従来のタンデムベースのアプローチと比較して,新しいアプローチでは,音声信号から直接ユーザの意図を抽出し,共同最適化と低レイテンシを実現する。
しかし、このようなアプローチは通常、1つの意図を一度に処理するように設計されており、ユーザーは対話システムと対話しながら要求を満たすために複数のラウンドを実施できる。
本稿では,複数の意図をオンラインおよびインクリメンタルに処理できるストリーミングエンドツーエンドフレームワークを提案する。
我々のフレームワークのバックボーンは、コネクショニスト時間分類(CTC)基準で訓練された一方向RNNである。
この設計により、十分な証拠が蓄積された場合に意図を識別でき、複数の意図を順次特定することができる。
提案手法はFSC(Fluent Speech Commands)データセット上で評価し,意図検出精度は全マルチインテント設定で約97 %である。
この結果は最先端の非ストリーミングモデルのパフォーマンスに匹敵するが、オンラインおよびインクリメンタルな方法で達成される。
Google Speech Commandsデータセットを用いたキーワードスポッティングタスクにも,私たちのモデルを採用しています。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Towards General-Purpose Speech Abilities for Large Language Models Using
Unpaired Data [26.268670930367097]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
提案モデルでは,音声のプロンプトをテキストの代替として利用し,会話を継続することができる。
カスケードとは違って,本手法では,テキストと音声のモダリティを交換し,会話の先行状況を利用してより良い結果を提供する。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Contextual Biasing of Language Models for Speech Recognition in
Goal-Oriented Conversational Agents [11.193867567895353]
ゴール指向の会話インターフェイスは特定のタスクを達成するように設計されている。
推論時に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。
本実験では,目標指向音声データセットにおける非文脈発話レベルNLMレコレータに対する単語誤り率(WER)の相対的な7%の低減を示した。
論文 参考訳(メタデータ) (2021-03-18T15:38:08Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Temporarily-Aware Context Modelling using Generative Adversarial
Networks for Speech Activity Detection [43.662221486962274]
音声活動検出(SAD)のための新しい共同学習フレームワークを提案する。
我々は、生成した敵対的ネットワークを利用して、次の音声セグメントと共にフレームワイド音声/非音声分類の共用予測のための損失関数を自動学習する。
NIST OpenSAT' 17 や AMI Meeting,HAVIC など,複数の公開ベンチマーク上で提案するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-04-02T02:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。