論文の概要: Ensemble Chinese End-to-End Spoken Language Understanding for Abnormal
Event Detection from audio stream
- arxiv url: http://arxiv.org/abs/2010.09235v2
- Date: Sat, 11 Dec 2021 22:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 23:28:35.561746
- Title: Ensemble Chinese End-to-End Spoken Language Understanding for Abnormal
Event Detection from audio stream
- Title(参考訳): 音声ストリームからの異常事象検出のための中国語エンドツーエンド音声理解
- Authors: Haoran Wei, Fei Tao, Runze Su, Sen Yang, Ji Liu
- Abstract要約: 本稿では,中国環境におけるエンサンブル・エンド・ツー・エンドのSLUモデルを提案する。
このアンサンブルSLUモデルは、複数の事前訓練されたASRモデルを用いて階層的特徴を抽出し、音素レベルと単語レベル情報の表現性を向上した。
提案手法は従来のSLUモデルと比較して9.7%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 23.774987576025662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional spoken language understanding (SLU) consist of two stages, the
first stage maps speech to text by automatic speech recognition (ASR), and the
second stage maps text to intent by natural language understanding (NLU).
End-to-end SLU maps speech directly to intent through a single deep learning
model. Previous end-to-end SLU models are primarily used for English
environment due to lacking large scale SLU dataset in Chines, and use only one
ASR model to extract features from speech. With the help of Kuaishou
technology, a large scale SLU dataset in Chinese is collected to detect
abnormal event in their live audio stream. Based on this dataset, this paper
proposed a ensemble end-to-end SLU model used for Chinese environment. This
ensemble SLU models extracted hierarchies features using multiple pre-trained
ASR models, leading to better representation of phoneme level and word level
information. This proposed approached achieve 9.7% increase of accuracy
compared to previous end-to-end SLU model.
- Abstract(参考訳): 従来の音声言語理解(SLU)は2段階から構成されており、第1段階は自動音声認識(ASR)で音声をテキストにマッピングし、第2段階は自然言語理解(NLU)でテキストを意図にマッピングする。
エンドツーエンドのSLUは、単一のディープラーニングモデルを通じて、音声を直接インテントにマップする。
従来のエンドツーエンドのSLUモデルは、主に英語環境において、大規模なSLUデータセットが欠如しているため、音声から特徴を抽出するために1つのASRモデルのみが使用される。
Kuaishouテクノロジーの助けを借りて、中国語の大規模なSLUデータセットを収集し、ライブオーディオストリームの異常事象を検出する。
本稿では,このデータセットに基づいて,中国環境におけるエンドツーエンドsluモデルを提案する。
このアンサンブルSLUモデルは、複数の事前訓練されたASRモデルを用いて階層的特徴を抽出し、音素レベルと単語レベル情報の表現性を向上した。
提案手法は従来のSLUモデルと比較して9.7%の精度向上を実現した。
関連論文リスト
- Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders [13.722028186368737]
本研究では,コネクショニストの時間分類を微調整した自己教師型音響エンコーダを用いて,テキストの埋め込みを抽出する。
本モデルでは,DSTC2データセット上でのSOTA(State-of-the-art)対話行動分類モデルに対して,4%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2023-05-04T15:36:37Z) - A Study on the Integration of Pre-trained SSL, ASR, LM and SLU Models
for Spoken Language Understanding [42.345266746904514]
4種類の事前学習モデルとそれらの組み合わせを音声言語理解(SLU)に適用する。
我々は、大量の未ペアデータに基づいて事前訓練された自己教師付き音声・言語モデル(LM)を利用して、強い音声・テキスト表現を抽出する。
また、より大きな外部音声認識(ASR)やSLUコーパスで事前訓練した教師付きモデルについても検討する。
論文 参考訳(メタデータ) (2022-11-10T20:59:13Z) - End-to-End Spoken Language Understanding: Performance analyses of a
voice command task in a low resource setting [0.3867363075280543]
本稿では,E2Eモデルを用いて音声言語理解タスクを実行するための信号特徴と他の言語特性を同定する。
この研究は、英語以外の音声コマンドを処理しなければならないスマートホームのアプリケーションドメインで実施されている。
論文 参考訳(メタデータ) (2022-07-17T13:51:56Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。