論文の概要: Integration of Pre-trained Networks with Continuous Token Interface for
End-to-End Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2104.07253v1
- Date: Thu, 15 Apr 2021 05:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:18:48.436430
- Title: Integration of Pre-trained Networks with Continuous Token Interface for
End-to-End Spoken Language Understanding
- Title(参考訳): エンドツーエンド音声理解のための連続トークンインタフェースと事前学習したネットワークの統合
- Authors: Seunghyun Seo, Donghyun Kwak, Bowon Lee
- Abstract要約: 新規なインターフェースである連続トークンインタフェース(CTI)を用いたE2E SLUネットワークの簡便かつ堅牢な統合手法を提案する。
唯一の違いはノイズレベルであるため、ASRネットワークの出力をNLUネットワークに直接供給します。
我々は,CTIと統合した後も,異種データからマルチタスク学習を学習できることを示す。
- 参考スコア(独自算出の注目度): 2.472349965982919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most End-to-End (E2E) SLU networks leverage the pre-trained ASR networks but
still lack the capability to understand the semantics of utterances, crucial
for the SLU task. To solve this, recently proposed studies use pre-trained NLU
networks. However, it is not trivial to fully utilize both pre-trained
networks; many solutions were proposed, such as Knowledge Distillation,
cross-modal shared embedding, and network integration with Interface. We
propose a simple and robust integration method for the E2E SLU network with
novel Interface, Continuous Token Interface (CTI), the junctional
representation of the ASR and NLU networks when both networks are pre-trained
with the same vocabulary. Because the only difference is the noise level, we
directly feed the ASR network's output to the NLU network. Thus, we can train
our SLU network in an E2E manner without additional modules, such as
Gumbel-Softmax. We evaluate our model using SLURP, a challenging SLU dataset
and achieve state-of-the-art scores on both intent classification and slot
filling tasks. We also verify the NLU network, pre-trained with Masked Language
Model, can utilize a noisy textual representation of CTI. Moreover, we show our
model can be trained with multi-task learning from heterogeneous data even
after integration with CTI.
- Abstract(参考訳): ほとんどのEnd-to-End(E2E)SLUネットワークは、事前訓練されたASRネットワークを活用しているが、それでもSLUタスクにとって重要な発話の意味を理解する能力が欠けている。
この問題を解決するために、最近提案された研究は、事前学習されたNLUネットワークを使用する。
しかし、両方の事前訓練されたネットワークを完全に活用することは簡単ではなく、知識蒸留、クロスモーダルな共有埋め込み、インターフェイスとのネットワーク統合といった多くのソリューションが提案された。
両ネットワークが同じ語彙で事前学習された場合,ASRおよびNLUネットワークの接合表現である,新しいインタフェース,連続トークンインタフェース(CTI)を備えたE2E SLUネットワークの簡易かつ堅牢な統合手法を提案する。
ノイズレベルが唯一の違いであるため、ASRネットワークの出力を直接NLUネットワークに供給する。
したがって、Gumbel-Softmaxのような追加モジュールを使わずに、私たちのSLUネットワークをE2E方式でトレーニングすることができる。
我々は,sluデータセットに挑戦するslurpを用いてモデルを評価し,意図分類とスロット充填タスクの両方において最先端のスコアを得る。
また,Musked Language Model で事前学習した NLU ネットワークは,CTI のノイズの多いテキスト表現を利用することができる。
さらに,ctiとの統合後も,異種データからのマルチタスク学習で学習できることを示す。
関連論文リスト
- Aux-NAS: Exploiting Auxiliary Labels with Negligibly Extra Inference Cost [73.28626942658022]
本研究の目的は,独立タスク(副次タスク)から追加の補助ラベルを活用することで,タスクのパフォーマンスを向上させることである。
本手法は,主タスクと補助タスクのための柔軟な非対称構造を持つアーキテクチャに基づく。
VGG、ResNet、ViTのバックボーンを使用して、NYU v2、CityScapes、Taskonomyデータセット上の6つのタスクで実験を行った。
論文 参考訳(メタデータ) (2024-05-09T11:50:19Z) - Integrating Pretrained ASR and LM to Perform Sequence Generation for
Spoken Language Understanding [29.971414483624823]
本稿では,ASR と LMworks を,シーケンス生成タスクのための SLU の定式化に効果的に統合する 3 パスのエンドツーエンド(E2E) SLU システムを提案する。
提案した3パスSLUシステムは,2つのベンチマークSLUデータセット上でのカスケードモデルとE2E SLUモデルの性能向上を示す。
論文 参考訳(メタデータ) (2023-07-20T16:34:40Z) - Meta Auxiliary Learning for Low-resource Spoken Language Understanding [11.002938634213734]
音声言語理解(SLU)は、音声認識(ASR)と自然言語理解(NLU)を統一的なタスクとして扱う。
低リソースSLUタスクの性能向上のために,メタ補助学習に基づくASRとNLUのジョイントトレーニング手法を利用する。
論文 参考訳(メタデータ) (2022-06-26T03:12:33Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language
Understanding [16.381644007368763]
E2E SLU(End-to-end Spoken Language Understanding)は、共同最適化と低レイテンシの利点により、関心を集めている。
本稿では,これらの考察に対処するために,マルチタスク・セマンティックトランスデューサモデルを提案する。
提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込みます。
論文 参考訳(メタデータ) (2022-04-01T16:38:56Z) - End-to-End Spoken Language Understanding using RNN-Transducer ASR [14.267028645397266]
本稿では,音声音声からテキスト,意図,スロットを抽出するエンドツーエンド学習音声理解システム(SLU)を提案する。
ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)ベースの自動音声認識(ASR)モデルからなり、ニューラルネットワークを通じてニューラル自然言語理解(NLU)モデルに接続される。
論文 参考訳(メタデータ) (2021-06-30T09:20:32Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces [17.030832205343195]
本稿では,音声アシスタントを指向した音声から自然言語意図を抽出する言語理解(SLU)の問題について考察する。
ハードウェア制約のあるシナリオにデプロイする機会を開放するために必要な仕様のために、エンドツーエンドのSLUモデルを構築することができる。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
論文 参考訳(メタデータ) (2020-08-14T02:43:57Z) - Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文 参考訳(メタデータ) (2020-07-24T08:16:37Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。