論文の概要: Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2204.00558v1
- Date: Fri, 1 Apr 2022 16:38:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 15:47:47.393324
- Title: Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language
Understanding
- Title(参考訳): ストリーム型音声言語理解のためのセマンティックデコーダを用いたマルチタスクRNN-T
- Authors: Xuandi Fu, Feng-Ju Chang, Martin Radfar, Kai Wei, Jing Liu, Grant P.
Strimel, Kanthashree Mysore Sathyendra
- Abstract要約: E2E SLU(End-to-end Spoken Language Understanding)は、共同最適化と低レイテンシの利点により、関心を集めている。
本稿では,これらの考察に対処するために,マルチタスク・セマンティックトランスデューサモデルを提案する。
提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込みます。
- 参考スコア(独自算出の注目度): 16.381644007368763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end Spoken Language Understanding (E2E SLU) has attracted increasing
interest due to its advantages of joint optimization and low latency when
compared to traditionally cascaded pipelines. Existing E2E SLU models usually
follow a two-stage configuration where an Automatic Speech Recognition (ASR)
network first predicts a transcript which is then passed to a Natural Language
Understanding (NLU) module through an interface to infer semantic labels, such
as intent and slot tags. This design, however, does not consider the NLU
posterior while making transcript predictions, nor correct the NLU prediction
error immediately by considering the previously predicted word-pieces. In
addition, the NLU model in the two-stage system is not streamable, as it must
wait for the audio segments to complete processing, which ultimately impacts
the latency of the SLU system. In this work, we propose a streamable multi-task
semantic transducer model to address these considerations. Our proposed
architecture predicts ASR and NLU labels auto-regressively and uses a semantic
decoder to ingest both previously predicted word-pieces and slot tags while
aggregating them through a fusion network. Using an industry scale SLU and a
public FSC dataset, we show the proposed model outperforms the two-stage E2E
SLU model for both ASR and NLU metrics.
- Abstract(参考訳): E2E SLU(End-to-end Spoken Language Understanding)は、従来のカスケードパイプラインと比較して、共同最適化と低レイテンシの利点により、関心を集めている。
既存のE2E SLUモデルは通常、2段階構成に従っており、まずASR(Automatic Speech Recognition)ネットワークが書き起こしを予測して自然言語理解(NLU)モジュールに渡され、インテントやスロットタグなどのセマンティックラベルを推論する。
しかし、この設計では、書き起こし予測をしながらNLU後部を考慮せず、事前に予測されたワードピースを考慮すれば即座にNLU予測誤差を補正しない。
さらに、2段階システムのNLUモデルは、音声セグメントの処理が完了するのを待たなければならないため、ストリーミングできないため、最終的にSLUシステムのレイテンシに影響を及ぼす。
本研究では,これらの課題に対処するためのマルチタスクセマンティックトランスデューサモデルを提案する。
提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込み, 融合ネットワークを介して集約する。
産業規模のSLUと公共FSCデータセットを用いて、提案モデルがASRおよびNLUの指標に対して2段階のE2E SLUモデルより優れていることを示す。
関連論文リスト
- UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - End-to-End Spoken Language Understanding: Performance analyses of a
voice command task in a low resource setting [0.3867363075280543]
本稿では,E2Eモデルを用いて音声言語理解タスクを実行するための信号特徴と他の言語特性を同定する。
この研究は、英語以外の音声コマンドを処理しなければならないスマートホームのアプリケーションドメインで実施されている。
論文 参考訳(メタデータ) (2022-07-17T13:51:56Z) - Two-Pass Low Latency End-to-End Spoken Language Understanding [36.81762807197944]
我々は,E2E-SLUフレームワーク内にラベル付きテキストデータに基づいて事前学習した言語モデルを組み込んで,強力な意味表現を構築した。
本研究では,第1パスの音声数秒の音響情報を用いて低遅延予測を行う2パスSLUシステムを開発した。
私たちのコードとモデルは、ESPnet-SLUツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-07-14T05:50:16Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - FANS: Fusing ASR and NLU for on-device SLU [16.1861817573118]
音声言語理解システム(SLU)は、音声入力コマンドを意味論に翻訳し、意味論を意図とスロットタグと値のペアとして符号化する。
現在のほとんどのSLUシステムは、2つのニューラルモデルのカスケードをデプロイしており、1つは入力されたオーディオをトランスクリプト(ASR)にマッピングし、もう1つはトランスクリプト(NLU)からインテントとスロットを予測する。
FANSは、ASRオーディオエンコーダをマルチタスクNLUデコーダに融合させ、入力オーディオから直接インテント、スロットタグ、スロット値を推測する新しいエンドツーエンドSLUモデルである。
論文 参考訳(メタデータ) (2021-10-31T03:50:19Z) - An Effective Non-Autoregressive Model for Spoken Language Understanding [15.99246711701726]
本稿では,非自己回帰型音声言語理解モデルであるLayered-Refine Transformerを提案する。
SLGでは、非自己回帰モデルはトレーニング中に依存性情報を効率的に取得でき、推論に余分な時間を費やすことはない。
2つの公開データセットの実験により、我々のモデルはSLU性能を著しく改善し(総合的精度で1.5%)、推論プロセスを大幅に高速化する(10倍以上)。
論文 参考訳(メタデータ) (2021-08-16T10:26:57Z) - End-to-End Spoken Language Understanding using RNN-Transducer ASR [14.267028645397266]
本稿では,音声音声からテキスト,意図,スロットを抽出するエンドツーエンド学習音声理解システム(SLU)を提案する。
ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)ベースの自動音声認識(ASR)モデルからなり、ニューラルネットワークを通じてニューラル自然言語理解(NLU)モデルに接続される。
論文 参考訳(メタデータ) (2021-06-30T09:20:32Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。