論文の概要: Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification
- arxiv url: http://arxiv.org/abs/2102.07370v1
- Date: Mon, 15 Feb 2021 07:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:50:49.175636
- Title: Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification
- Title(参考訳): 意図分類のための事前学習音声および言語モデルからの音響・言語埋め込みの活用
- Authors: Bidisha Sharma, Maulik Madhavi and Haizhou Li
- Abstract要約: 本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
- 参考スコア(独自算出の注目度): 81.80311855996584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intent classification is a task in spoken language understanding. An intent
classification system is usually implemented as a pipeline process, with a
speech recognition module followed by text processing that classifies the
intents. There are also studies of end-to-end system that takes acoustic
features as input and classifies the intents directly. Such systems don't take
advantage of relevant linguistic information, and suffer from limited training
data. In this work, we propose a novel intent classification framework that
employs acoustic features extracted from a pretrained speech recognition system
and linguistic features learned from a pretrained language model. We use
knowledge distillation technique to map the acoustic embeddings towards
linguistic embeddings. We perform fusion of both acoustic and linguistic
embeddings through cross-attention approach to classify intents. With the
proposed method, we achieve 90.86% and 99.07% accuracy on ATIS and Fluent
speech corpus, respectively.
- Abstract(参考訳): インテント分類は、言語理解におけるタスクである。
インテント分類システムは、通常パイプラインプロセスとして実装され、音声認識モジュールにインテントを分類するテキスト処理が続く。
また、音響特徴を入力として直接意図を分類するエンドツーエンドシステムの研究もある。
このようなシステムは関連する言語情報を活用せず、限られた訓練データに悩まされる。
本研究では,事前学習した音声認識システムから抽出した音響特徴と,事前学習した言語モデルから学習した言語特徴を利用する,新たな意図分類フレームワークを提案する。
我々は知識蒸留技術を用いて音響埋め込みを言語埋め込みにマッピングする。
我々は、意図を分類するクロスアテンションアプローチを通じて、音響的および言語的埋め込みの融合を行う。
提案手法では,atisと流行った音声コーパスで90.86%,99.07%の精度をそれぞれ達成した。
関連論文リスト
- Generalized zero-shot audio-to-intent classification [7.76114116227644]
そこで本研究では,意図ごとのサンプルテキストしか持たない,ゼロショット音声からインテントへの一般化型分類フレームワークを提案する。
我々はニューラルオーディオシンセサイザーを利用して、サンプルテキスト発声のためのオーディオ埋め込みを作成する。
我々のマルチモーダルトレーニングアプローチは、SLURPの見えない意図に対するゼロショット意図分類の精度を2.75%と18.2%向上させる。
論文 参考訳(メタデータ) (2023-11-04T18:55:08Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Pretrained Semantic Speech Embeddings for End-to-End Spoken Language
Understanding via Cross-Modal Teacher-Student Learning [31.7865837105092]
本研究では,事前学習した文脈埋め込みによる音響特性の処理を可能にする新しい学習手法を提案する。
我々は、エンドツーエンドの音声言語理解システムを構築するために、事前訓練された音声認識システムのエンコーダで拡張する。
論文 参考訳(メタデータ) (2020-07-03T17:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。