論文の概要: Three-Module Modeling For End-to-End Spoken Language Understanding Using
Pre-trained DNN-HMM-Based Acoustic-Phonetic Model
- arxiv url: http://arxiv.org/abs/2204.03315v1
- Date: Thu, 7 Apr 2022 09:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 16:09:19.661645
- Title: Three-Module Modeling For End-to-End Spoken Language Understanding Using
Pre-trained DNN-HMM-Based Acoustic-Phonetic Model
- Title(参考訳): 事前学習DNN-HMMに基づく音響音韻モデルを用いたエンドツーエンド音声言語理解のための3モードモデリング
- Authors: Nick J.C. Wang and Lu Wang and Yandan Sun and Haimei Kang and Dejun
Zhang
- Abstract要約: 音声言語理解(SLU)では、ユーザが言っていることを意図に変換する。
エンドツーエンドのSLUに関する最近の研究は、事前学習アプローチによって精度を向上できることを示した。
- 参考スコア(独自算出の注目度): 6.8496075080747065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In spoken language understanding (SLU), what the user says is converted to
his/her intent. Recent work on end-to-end SLU has shown that accuracy can be
improved via pre-training approaches. We revisit ideas presented by Lugosch et
al. using speech pre-training and three-module modeling; however, to ease
construction of the end-to-end SLU model, we use as our phoneme module an
open-source acoustic-phonetic model from a DNN-HMM hybrid automatic speech
recognition (ASR) system instead of training one from scratch. Hence we
fine-tune on speech only for the word module, and we apply multi-target
learning (MTL) on the word and intent modules to jointly optimize SLU
performance. MTL yields a relative reduction of 40% in intent-classification
error rates (from 1.0% to 0.6%). Note that our three-module model is a
streaming method. The final outcome of the proposed three-module modeling
approach yields an intent accuracy of 99.4% on FluentSpeech, an intent error
rate reduction of 50% compared to that of Lugosch et al. Although we focus on
real-time streaming methods, we also list non-streaming methods for comparison.
- Abstract(参考訳): 音声言語理解(SLU)では、ユーザが言っていることを意図に変換する。
エンドツーエンドのSLUに関する最近の研究は、事前学習アプローチによって精度を向上できることを示した。
本稿では,Lugoschらが提案する音声事前学習と3モジュールモデリングを用いて提案手法を再検討するが,エンドツーエンドSLUモデルの構築を容易にするため,DNN-HMMハイブリッド音声認識(ASR)システムによるオープンソースの音響音響モデルとして,一から学習する代わりに,音素モジュールとして使用する。
したがって、単語モジュールにのみ音声を微調整し、単語と意図モジュールにマルチターゲット学習(MTL)を適用してSLU性能を最適化する。
MTLは意図分類誤り率(1.0%から0.6%)の40%を相対的に減少させる。
3つのモジュールモデルがストリーミングメソッドであることに注意してください。
提案された3つのモジュールモデリングアプローチの最終結果は、fluentspeechのインテント精度が99.4%となり、lugosch氏らと比較すると、インテントエラーレートが50%削減された。
リアルタイムストリーミングに焦点をあてるが、比較のためには非ストリーミング手法もリストアップする。
関連論文リスト
- Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages [0.20971479389679337]
Spoken Language Understanding(SLU)モデルは、Alexa、Bixby、Google Assistantなどの音声アシスタント(VA)のコアコンポーネントである。
本稿では,Large Language Models (LLM) を利用して,SLUシステムを新しい言語に拡張するパイプラインを提案する。
当社のアプローチは,mBERTモデルを用いたクラウドシナリオにおいて,主要なマルチ言語SLUデータセットであるMultiATIS++ベンチマークを改善した。
論文 参考訳(メタデータ) (2024-04-03T09:13:26Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Structured Pruning of Self-Supervised Pre-trained Models for Speech
Recognition and Understanding [43.68557263195205]
自己教師付き音声表現学習(SSL)は、様々な下流タスクで有効であることが示されているが、SSLモデルは通常、大きくて遅い。
このような異種ネットワークを扱うための3つのタスク固有の構造化プルーニング手法を提案する。
LibriSpeech と SLURP の実験により,提案手法は従来の wav2vecbase よりも10% から30% の精度で精度が高く,劣化を伴わずに 40% から 50% の削減が可能であった。
論文 参考訳(メタデータ) (2023-02-27T20:39:54Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - End-to-end model for named entity recognition from speech without paired
training data [12.66131972249388]
本稿では,意味情報を抽出するエンド・ツー・エンドのニューラルモデルを構築するアプローチを提案する。
我々のアプローチは、テキストからベクトル表現のシーケンスを生成するために訓練された外部モデルを使用することに基づいている。
quEROコーパスを用いた名前付きエンティティ認識実験は,このアプローチが有望であることを示す。
論文 参考訳(メタデータ) (2022-04-02T08:14:27Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Improving Streaming Automatic Speech Recognition With Non-Streaming
Model Distillation On Unsupervised Data [44.48235209327319]
ストリーミングのエンドツーエンド自動音声認識モデルは、スマートスピーカーやデバイス上のアプリケーションで広く利用されている。
教師として非ストリーミング型ASRモデルを活用することによって,新しい効果的な学習手法を提案する。
ストリーミングモデルのトレーニングを、最大300万時間のYouTubeオーディオに拡大しています。
論文 参考訳(メタデータ) (2020-10-22T22:41:33Z) - Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation [15.225080891662675]
音声理解は、膨大な事前訓練された言語モデルの推測の恩恵を受けることができる。
LMの上位層から完全に音声ベースのモジュールに知識を共有できるという仮説を実験的に検証した。
論文 参考訳(メタデータ) (2020-05-17T10:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。