論文の概要: End-to-End Neural Transformer Based Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2008.10984v1
- Date: Wed, 12 Aug 2020 22:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:50:14.316558
- Title: End-to-End Neural Transformer Based Spoken Language Understanding
- Title(参考訳): エンド・ツー・エンドニューラルトランスを用いた音声言語理解
- Authors: Martin Radfar, Athanasios Mouchtaris, and Siegfried Kunzmann
- Abstract要約: 音声言語理解(SLU)とは、音声信号から意味情報を推測する過程のこと。
本稿では,音声信号に埋め込まれた可変長領域,意図,スロットを予測可能な,エンドツーエンドのニューラルトランスフォーマーに基づくSLUモデルを提案する。
我々のエンドツーエンド変換器SLUは、Fluent Speech Commandsデータセットのドメイン、インテント、スロットを、それぞれ98.1 %、99.6 %、99.6 %と精度で予測する。
- 参考スコア(独自算出の注目度): 14.736425160859284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding (SLU) refers to the process of inferring the
semantic information from audio signals. While the neural transformers
consistently deliver the best performance among the state-of-the-art neural
architectures in field of natural language processing (NLP), their merits in a
closely related field, i.e., spoken language understanding (SLU) have not beed
investigated. In this paper, we introduce an end-to-end neural
transformer-based SLU model that can predict the variable-length domain,
intent, and slots vectors embedded in an audio signal with no intermediate
token prediction architecture. This new architecture leverages the
self-attention mechanism by which the audio signal is transformed to various
sub-subspaces allowing to extract the semantic context implied by an utterance.
Our end-to-end transformer SLU predicts the domains, intents and slots in the
Fluent Speech Commands dataset with accuracy equal to 98.1 \%, 99.6 \%, and
99.6 \%, respectively and outperforms the SLU models that leverage a
combination of recurrent and convolutional neural networks by 1.4 \% while the
size of our model is 25\% smaller than that of these architectures.
Additionally, due to independent sub-space projections in the self-attention
layer, the model is highly parallelizable which makes it a good candidate for
on-device SLU.
- Abstract(参考訳): 音声言語理解(SLU)とは、音声信号から意味情報を推測する過程のこと。
ニューラルトランスフォーマーは、自然言語処理(NLP)分野における最先端のニューラルアーキテクチャの中で一貫して最高の性能を保っているが、それらと密接に関連する分野、すなわち音声言語理解(SLU)におけるメリットは研究されていない。
本稿では,中間トークン予測アーキテクチャを持たない音声信号に埋め込まれた可変長領域,インテント,スロットベクトルを予測可能な,エンドツーエンドのニューラルトランスフォーマーに基づくSLUモデルを提案する。
この新しいアーキテクチャは、音声信号が様々なサブサブサブ空間に変換され、発話によって暗示される意味的文脈を抽出するセルフアテンション機構を利用する。
我々のエンドツーエンド変換器SLUは、Fluent Speech Commandsデータセットのドメイン、インテント、スロットを、それぞれ98.1 \%、99.6 \%、99.6 \%と精度で予測し、繰り返しおよび畳み込みニューラルネットワークの組み合わせを利用するSLUモデルを1.4 \%上回る一方、モデルのサイズはこれらのアーキテクチャよりも25\%小さい。
さらに、自己アテンション層における独立した部分空間投影のため、モデルは高い並列化が可能であり、オンデバイスSLUの候補となる。
関連論文リスト
- Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - End-to-end model for named entity recognition from speech without paired
training data [12.66131972249388]
本稿では,意味情報を抽出するエンド・ツー・エンドのニューラルモデルを構築するアプローチを提案する。
我々のアプローチは、テキストからベクトル表現のシーケンスを生成するために訓練された外部モデルを使用することに基づいている。
quEROコーパスを用いた名前付きエンティティ認識実験は,このアプローチが有望であることを示す。
論文 参考訳(メタデータ) (2022-04-02T08:14:27Z) - Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language
Understanding [16.381644007368763]
E2E SLU(End-to-end Spoken Language Understanding)は、共同最適化と低レイテンシの利点により、関心を集めている。
本稿では,これらの考察に対処するために,マルチタスク・セマンティックトランスデューサモデルを提案する。
提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込みます。
論文 参考訳(メタデータ) (2022-04-01T16:38:56Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - End-to-End Spoken Language Understanding using RNN-Transducer ASR [14.267028645397266]
本稿では,音声音声からテキスト,意図,スロットを抽出するエンドツーエンド学習音声理解システム(SLU)を提案する。
ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)ベースの自動音声認識(ASR)モデルからなり、ニューラルネットワークを通じてニューラル自然言語理解(NLU)モデルに接続される。
論文 参考訳(メタデータ) (2021-06-30T09:20:32Z) - End-to-End Spoken Language Understanding for Generalized Voice
Assistants [15.241812584273886]
商用音声アシスタント(VA)における一般化音声認識のためのE2Eモデル構築のためのアプローチを提案する。
本研究では,ASRレベルとNLUレベルの両方で事前学習が可能な,完全に微分可能なトランスフォーマーベースの階層システムを提案する。
これは転写と意味分類の両方の損失に基づいて微調整され、多種多様な意図と引数の組み合わせを扱う。
論文 参考訳(メタデータ) (2021-06-16T17:56:47Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。