論文の概要: Sequential End-to-End Intent and Slot Label Classification and
Localization
- arxiv url: http://arxiv.org/abs/2106.04660v1
- Date: Tue, 8 Jun 2021 19:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:01:15.386702
- Title: Sequential End-to-End Intent and Slot Label Classification and
Localization
- Title(参考訳): 逐次エンドツーエンドインテントとスロットラベルの分類と位置化
- Authors: Yiran Cao, Nihal Potdar, Anderson R. Avila
- Abstract要約: エンドツーエンド(e2e)の音声言語理解(SLU)ソリューションが最近提案されている。
本稿では,音声信号のチャンクを連続処理して意図とスロット値を予測する,ストリーミングシナリオのためのコンパクトなe2e SLUアーキテクチャを提案する。
その結果,CTC 98.97 %,CTL 98.78 % に到達した音声信号の処理能力が得られた。
- 参考スコア(独自算出の注目度): 2.1684857243537334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-computer interaction (HCI) is significantly impacted by delayed
responses from a spoken dialogue system. Hence, end-to-end (e2e) spoken
language understanding (SLU) solutions have recently been proposed to decrease
latency. Such approaches allow for the extraction of semantic information
directly from the speech signal, thus bypassing the need for a transcript from
an automatic speech recognition (ASR) system. In this paper, we propose a
compact e2e SLU architecture for streaming scenarios, where chunks of the
speech signal are processed continuously to predict intent and slot values. Our
model is based on a 3D convolutional neural network (3D-CNN) and a
unidirectional long short-term memory (LSTM). We compare the performance of two
alignment-free losses: the connectionist temporal classification (CTC) method
and its adapted version, namely connectionist temporal localization (CTL). The
latter performs not only the classification but also localization of sequential
audio events. The proposed solution is evaluated on the Fluent Speech Command
dataset and results show our model ability to process incoming speech signal,
reaching accuracy as high as 98.97 % for CTC and 98.78 % for CTL on
single-label classification, and as high as 95.69 % for CTC and 95.28 % for CTL
on two-label prediction.
- Abstract(参考訳): HCI(Human-Computer Interaction)は、音声対話システムからの遅延応答に大きく影響する。
したがって, エンドツーエンド (e2e) 音声言語理解 (SLU) ソリューションが最近提案されている。
このようなアプローチにより、音声信号から直接意味情報の抽出が可能となり、自動音声認識(ASR)システムからの転写の必要性を回避できる。
本稿では,音声信号のチャンクを連続処理して意図とスロット値を予測する,ストリーミングシナリオのためのコンパクトなe2e SLUアーキテクチャを提案する。
本モデルは,3次元畳み込みニューラルネットワーク(3D-CNN)と一方向長短期記憶(LSTM)に基づく。
接続性時空間分類法(ctc法)と適応型ctl法(connectionist temporal localization, ctl)の2つのアライメントフリーロスの性能を比較した。
後者は、分類だけでなく、逐次的なオーディオイベントのローカライズも行う。
提案する解法をfluent speech commandデータセット上で評価し,提案手法では入力音声信号を処理し,ctcでは98.97 %,単一ラベル分類では98.78 %,ctcでは95.69 %,2ラベル予測では95.28 %の精度で処理できることを示す。
関連論文リスト
- End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Streaming End-to-End Multilingual Speech Recognition with Joint Language
Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。
カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。
9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:10:41Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - End-to-End Neural Transformer Based Spoken Language Understanding [14.736425160859284]
音声言語理解(SLU)とは、音声信号から意味情報を推測する過程のこと。
本稿では,音声信号に埋め込まれた可変長領域,意図,スロットを予測可能な,エンドツーエンドのニューラルトランスフォーマーに基づくSLUモデルを提案する。
我々のエンドツーエンド変換器SLUは、Fluent Speech Commandsデータセットのドメイン、インテント、スロットを、それぞれ98.1 %、99.6 %、99.6 %と精度で予測する。
論文 参考訳(メタデータ) (2020-08-12T22:58:20Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。