論文の概要、ライセンス

# (参考訳) マルチスケールcnnと注意による効率的な音声感情認識 [全文訳有]

Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention ( http://arxiv.org/abs/2106.04133v1 )

ライセンス: CC BY 4.0
Zixuan Peng, Yu Lu, Shengfeng Pan, Yunfeng Liu(参考訳) 音声からの感情認識は難しい課題である。 深層学習の最近の進歩は、双方向再帰的ニューラルネットワーク(Bi-RNN)とアテンションメカニズムを、音声やテキストといったマルチモーダルな特徴を抽出し、それらを下流の感情分類タスクに活用する標準的な方法として導いている。 本稿では,音声からの音響的情報と語彙的情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。 mscnn(multi-scale con-volutional layers)を用いて音声とテキストのhid-den表現を取得する。 次に、統計プーリングユニット(SPU)を用いて各モードの特徴をさらに抽出する。 また、アテンションモジュールはMSCNN-SPU (audio) とMSCNN (text) の上に構築でき、パーフォーマンスをさらに改善することができる。 実験の結果,IEMOCAPdatasetの既往の最先端手法では,重み付け精度 (WA) と非重み付け精度 (UA) の2つの感情カテゴリー(怒り,幸福,悲しみ,中立)で,それぞれ5.0%と5.2%の改善が得られた。

Emotion recognition from speech is a challenging task. Re-cent advances in deep learning have led bi-directional recur-rent neural network (Bi-RNN) and attention mechanism as astandard method for speech emotion recognition, extractingand attending multi-modal features - audio and text, and thenfusing them for downstream emotion classification tasks. Inthis paper, we propose a simple yet efficient neural networkarchitecture to exploit both acoustic and lexical informationfrom speech. The proposed framework using multi-scale con-volutional layers (MSCNN) to obtain both audio and text hid-den representations. Then, a statistical pooling unit (SPU)is used to further extract the features in each modality. Be-sides, an attention module can be built on top of the MSCNN-SPU (audio) and MSCNN (text) to further improve the perfor-mance. Extensive experiments show that the proposed modeloutperforms previous state-of-the-art methods on IEMOCAPdataset with four emotion categories (i.e., angry, happy, sadand neutral) in both weighted accuracy (WA) and unweightedaccuracy (UA), with an improvement of 5.0% and 5.2% respectively under the ASR setting.
公開日: Tue, 8 Jun 2021 06:45:42 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] D S . 8 ] d s である。 0.75
s c [ 1 v 3 3 1 4 0 sc [ 1 v 3 3 1 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
EFFICIENT SPEECH EMOTION RECOGNITION USING MULTI-SCALE CNN AND マルチスケールCNNを用いた効率的な音声除去認識 0.35
ATTENTION Zixuan Peng∗, Yu Lu∗, Shengfeng Pan, Yunfeng Liu 注意 Zixuan Peng∗, Yu Lu∗, Shengfeng Pan, Yunfeng Liu 0.64
Zhuiyi Technology, Shenzhen, China 中国深セン, 朱井技術 0.64
panacea raynor@hotmail.com, {julianlu, nickpan, glenliu}@wezhuiyi.com panacea raynor@hotmail.com, {julianlu, nickpan, glenliu}@wezhuiyi.com 0.93
ABSTRACT Emotion recognition from speech is a challenging task. ABSTRACT 音声からの感情認識は難しい課題である。 0.74
Recent advances in deep learning have led bi-directional recurrent neural network (Bi-RNN) and attention mechanism as a standard method for speech emotion recognition, extracting and attending multi-modal features - audio and text, and then fusing them for downstream emotion classification tasks. 近年のディープラーニングの進歩により、双方向のリカレントニューラルネットワーク(Bi-RNN)とアテンションメカニズムが、音声やテキストといったマルチモーダルな特徴を抽出し、受け入れ、下流の感情分類タスクのためにそれらを融合させた。
訳抜け防止モード: ディープラーニングの最近の進歩は、双方向リカレントニューラルネットワーク(Bi-RNN)を誘導している。 音声感情認識の標準手法としての注意機構 マルチモーダルな特徴(音声とテキスト)の抽出と参加 下流の感情分類タスクに 当てはめます
0.76
In this paper, we propose a simple yet efficient neural network architecture to exploit both acoustic and lexical information from speech. 本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。 0.77
The proposed framework using multi-scale convolutional layers (MSCNN) to obtain both audio and text hidden representations. マルチスケール畳み込み層(MSCNN)を用いて音声とテキストを隠蔽する手法を提案する。
訳抜け防止モード: マルチスケール畳み込み層(MSCNN)を用いたフレームワークの提案 音声とテキストの両方を隠蔽します
0.80
Then, a statistical pooling unit (SPU) is used to further extract the features in each modality. 次に、統計プーリングユニット(SPU)を用いて各モードの特徴をさらに抽出する。 0.67
Besides, an attention module can be built on top of the MSCNNSPU (audio) and MSCNN (text) to further improve the performance. また、アテンションモジュールはMSCNNSPU(audio)とMSCNN(text)の上に構築でき、パフォーマンスをさらに向上することができる。 0.69
Extensive experiments show that the proposed model outperforms previous state-of-the-art methods on IEMOCAP dataset with four emotion categories (i.e., angry, happy, sad and neutral) in both weighted accuracy (WA) and unweighted accuracy (UA), with an improvement of 5.0% and 5.2% respectively under the ASR setting. 実験の結果,IEMOCAPデータセットでは,重み付き精度 (WA) と非重み付き精度 (UA) の2つの感情カテゴリー(怒り,幸福,悲しみ,中立)で,それぞれ5.0%と5.2%の改善が得られた。 0.67
Index Terms— Speech Emotion Recognition, Deep Index Terms - 音声感情認識、ディープ 0.78
Learning and Natural Language Processing 1. 学習と自然言語処理 1. 0.83
INTRODUCTION Speech-based emotion recognition has raised a lot of attention in both speech and natural language processing in recent years. 導入 近年,音声による感情認識は,音声処理と自然言語処理の両方に注目が集まっている。 0.62
Emotion recognition - the task of automatically recognizing the human emotional states (i.e. 感情認識 - 人間の感情状態(すなわち、感情状態)を自動的に認識するタスク。 0.68
happy, sad, anger, neutral) expressed in natural speech. 幸福、悲しみ、怒り、中立)自然言語で表現される。 0.72
It has been an important sub-task in building an intelligent system in many fields, such as customer support call review and analysis, mental health surveillance, human-machine interaction, etc. 多くの分野において、カスタマーサポートコールレビューと分析、メンタルヘルス監視、人間と機械のインタラクションなど、インテリジェントシステムを構築する上で重要なサブタスクである。 0.67
One important challenge in speech emotion recognition is that, very often, the interaction between audio and language can change the expressed emotional states. 音声認識における重要な課題の1つは、しばしば、音声と言語間の相互作用が表現された感情状態を変えることである。 0.71
For example, the utterance ‘Yes, I did quite a lot’ can be ambiguous without 例えば、”yes, i did a lot”という発話はあいまいである。 0.61
knowing prosody information. 韻律情報を知っている 0.51
In contrast, ‘You know what, I’m sick and tired of listening to you’ can be considered neutral if the voice is flat and no lexical content is provided. 対照的に、”you know, i’m sick and tired to listening you”は、声が平らで語彙的コンテンツが提供されていない場合、中立的とみなされる。 0.71
Thus, it is expected to consider both lexical and acoustic information in emotion recognition from speech. したがって、音声からの感情認識において、語彙情報と音響情報の両方を考慮することが期待される。 0.57
Recently, deep learning based approaches has shown great performance in emotion recognition [1, 2, 3]. 近年,深層学習に基づくアプローチは感情認識 [1, 2, 3] において優れた性能を示している。 0.77
Recurrent neural networks (RNN) and attention mechanism have demonstrated impressive results in this task. リカレントニューラルネットワーク(rnn)とアテンション機構は、このタスクで印象的な結果を示している。 0.63
In [2], an attention network is used to learn the alignment between speech and text, together with Bi-LSTM network to model the sequence in emotion recognition. [2]では、注意ネットワークを用いて音声とテキストのアライメントを学習し、bi-lstmネットワークを用いて感情認識のシーケンスをモデル化する。 0.71
In addition, [3] proposed a multi-hop attention to select relevant parts of the textual data and then attend to the audio feature for later classification purpose. さらに, [3] はテキストデータの関連部分を選択し, その後の分類目的のために音声機能に参加するためのマルチホップアテンションを提案した。 0.78
However, these proposed methods are typically computationally expensive and complex in network structure. しかし,提案手法は一般に計算コストが高く,ネットワーク構造が複雑である。 0.79
In this paper, we first propose a simple convolutional neural network (CNN) and pooling -based model termed as multiscale CNN with statistical pooling units (MSCNN-SPU), which learns both speech and text modalities in tandem effectively for emotion recognition. 本稿では,まず,統計的プーリングユニット(MSCNN-SPU)を用いたマルチスケールCNNと呼ばれる単純な畳み込みニューラルネットワークとプールベースモデルを提案する。
訳抜け防止モード: 本稿では,まず,単純な畳み込みニューラルネットワーク(CNN)を提案する。 そして、統計プーリングユニット(MSCNN - SPU )を備えたマルチスケールCNNと呼ばれるプーリングベースのモデル 感情認識のために 音声とテキストの両方を 効果的に学習します
0.77
Additionally, with an attention module built on top of the MSCNN-SPU, resulting in MSCNN-SPU-ATT, the overall performance can be further improved. さらに、MSCNN-SPU上にアテンションモジュールが構築され、MSCNN-SPU-ATTが生成されることにより、全体的なパフォーマンスがさらに向上する。 0.60
In our extensive experiments on the Interactive Emotional Dyadic Motion Capture (IEMOCAP) dataset [4], we show that a) Our MSCNN-SPU model outperforms previous state-of-the-art (SOTA) approaches for bi-modal speech emotion recognition by 4.4% and 4.3% relative improvement in terms of WA and UA; b) Attention module (MSCNN-SPUATT) can further improve the overall performance by 0.6% and 0.9% compare to the MSCNN-SPU. The Interactive Emotional Dyadic Motion Capture (IEMOCAP) dataset [4], we show that a we MSCNN-SPU model developeds previous State-of-the-art (SOTA) approach for bi-modal speech emotion recognition by WA and UA; b) Attention Module (MSCNN-SPUATT) could improve the overall performance by 0.6% and 0.9% compared than the MSCNN-SPU。 0.71
The rest of the work is structured as follows, Section 2 compares our work with prior studies in speech emotion recognition. 残りの研究は以下のように構成されている: 第2節は、我々の研究を音声感情認識の先行研究と比較する。 0.53
We then present our proposed model in detail in Section 3. 次に,提案モデルについて,第3節で詳述する。 0.70
We show the extensive experimental results in Section 4 to compare with previous works, and we conclude the paper in Section 5. 本論文は,第4節の広範な実験結果と先行研究との比較を行い,第5節で結論づける。 0.79
Reproducibility. All our code will be available in open- 再現性。 コードはすべてオープンで公開されます。 0.62
source on Github1. ソースはgithub1。 0.71
∗Equal Contributions. *Equal Contributions 0.64
1https://github.com/ julianyulu/icassp202 1-mscnn-spu 1https://github.com/ julianyulu/icassp202 1-mscnn-spu 0.26
英語(論文から抽出)日本語訳スコア
2. RELATED WORK Various approaches to address speech emotion recognition tasks have been investigated using classical machine learning algorithm. 2. 関連作業 音声の感情認識タスクに対処する様々な手法を,古典的機械学習アルゴリズムを用いて検討した。 0.71
For example, previous works studied to model handcrafted temporal features from raw signal using Hidden Markov Models (HMMs) [5], or rely on high-level statistical features using Gaussian Mixture Models (GMMs) [6]. 例えば、HMM(Hidden Markov Models) [5] を用いた生信号から手作り時間特徴をモデル化したり、GMM(Gaussian Mixture Models) [6] を用いた高次統計特徴に依存して研究した。 0.86
Benefited from the development of deep learning, many approaches based on deep neural networks (DNNs) have emerged recently. ディープラーニングの発展に特化して、ディープニューラルネットワーク(DNN)に基づく多くのアプローチが最近登場した。 0.72
Researchers have demonstrated the effectiveness of CNNs in emotion classification with audio features [7, 8] and text information [9]. 研究者らは, 感情分類におけるCNNの有効性を, 音声特徴 [7, 8] とテキスト情報 [9] で実証した。 0.73
Additionally, RNN based models are also investigated to tackle the problem through sequence modeling [10]. さらに, RNN に基づくモデルも, シーケンスモデリング [10] によってこの問題に対処するために検討されている。 0.71
However, either audio or text is used in these methods; while human emotional state is usually expressed through an interaction between speech and text. しかし、音声またはテキストはこれらの方法で使われるが、人間の感情状態は通常、音声とテキストの相互作用によって表現される。 0.74
Multi-modal approaches make use of both text and audio features. マルチモーダルアプローチはテキストとオーディオの両方の機能を利用する。 0.76
In [11], a hybrid approach using WordNet and part-of-speech tagging are combined with standard audio features, then classified by a Support Vector Machine. 11]では、WordNetとpart-of-speechタグを用いたハイブリッドアプローチと標準オーディオ機能を組み合わせて、サポートベクトルマシンで分類する。 0.82
Using DNNs, [12] extracted text features from multi-resolution CNNs and audio information from BiLSTM, and optimized the task using a weighted sum of classification loss and verification loss. dnnsを使用して、[12]は多解像度cnnとbilstmから音声情報からテキストの特徴を抽出し、分類損失と検証損失の重み付け和を用いてタスクを最適化した。
訳抜け防止モード: DNNを使う [12 ]マルチ解像度CNNからテキストの特徴抽出とBiLSTMからの音声情報 タスクを最適化し 分類の損失と 検証の損失の重み付けで
0.77
In [2], an LSTM network is used to model the sequence for both audio and text. [2]では、LSTMネットワークを使用して音声とテキストの両方のシーケンスをモデル化する。 0.83
Then, a soft alignment between audio and text is performed using attention. そして、注意によって音声とテキストとのソフトアライメントを行う。 0.74
[1] fused learned features by introducing attention mechanism between text and audio. [1] テキストと音声の間に注意機構を導入することで学習特徴を融合させる。 0.66
Specifically, they proposed a so-called multi-hop-attention mechanism to improve the performance and achieved competitive results on the IEMOCAP dataset, which further exploiting the increasingly complicated modelling scheme such as residual learning, attention, etc. 具体的には、IEMOCAPデータセット上でパフォーマンスを改善し、競争的な結果を得るためのいわゆるマルチホップアテンション機構を提案し、残差学習や注意などの複雑なモデリングスキームをさらに活用した。 0.71
where N is the number of frames; [t1, ..., tM ] represents word embedding vectors, with M indicates the number of tokens in a sentence. ここで N はフレームの数、 [t1, ..., tM ] は単語の埋め込みベクトルを表し、M は文中のトークンの数を表す。 0.76
Let ΩA,T = {(s, dA,T ), s ∈ SA,T} be sets of kernels for audio modality (superscript ‘A’) and text modality (superscript ‘T’), where s is the kernel size along the dimension of input sequence, and dA and dT are the dimensions of MFCC and word embedding vectors respectively. ΩA,T = {(s, dA,T ), s ∈ SA,T} を音声モダリティ(上書き 'A' )とテキストモダリティ(上書き 'T' )のカーネル集合とし、s は入力シーケンスの次元に沿ったカーネルサイズ、dA と dT はそれぞれ MFCC とワード埋め込みベクトルの次元とする。 0.70
By applying the MSCNN, a set of feature maps are ob- mscnnを適用することで、機能マップのセットはob- 0.68
tained: エンターテイメント: 0.43
(x, θ) =(cid:8)yA,T 2 (cid:101)(cid:88) 2(cid:101)(cid:88) (x, θ) =(cid:8)ya,t 2 (cid:101)(cid:88) 2(cid:101)(cid:88) 0.84
(cid:100) d (cid:100)d 0.81
α |α ∈ Ω(cid:9) α |α ∈ Ω(cid:9) 0.86
α GMSCNN (cid:100) s α GMSCNN (cid:100) s 0.87
2(cid:99) m=(cid:98)− s 2(cid:99)m=(cid:98)− s 0.80
n=(cid:98)− d 2 (cid:99) n=(cid:98)− d 2 (cid:99) 0.81
yA,T α=(s,d)∈Ω[i, j] = yA,T α=(s,d)∂Ω[i,j] = 0.89
k[m, n] · x[i − m, j − n] k[m, n] · x[i − m, j − n] 0.85
(2) where k is the kernel function, and x stands for the input feature. (2) ここで k はカーネル関数であり、x は入力特徴を表す。 0.77
Each of the output feature map yA,T (s,d)∈Ω is a 2D-matrix which keeps the sequential context while having a series of hidden representations corresponding to the various CNN filters. 出力特徴写像 yA,T (s,d)~Ω はそれぞれ2D行列であり、様々なCNNフィルタに対応する一連の隠れ表現を持ちながら連続的なコンテキストを保持する。 0.79
(1) 3.2. Statistical Pooling Unit (SPU) (1) 3.2. 統計的プールユニット(SPU) 0.82
Previous work with CNNs for emotion recognition task frequently use a single layer of global max-pooling or global average-pooling, and has been proven efficient in [7, 8]. 感情認識タスクのためのcnnの以前の作業では、グローバルマックスプールやグローバル平均プールの単一のレイヤを頻繁に使用しており、[7、8]では効率的であることが証明されている。 0.54
It is intuitive that the abstraction provided by different pooling techniques can help in modeling different emotions. 異なるプール技術によって提供される抽象化は、さまざまな感情をモデリングするのに役立ちます。 0.70
Therefore, we propose a statistic pooling unit (SPU, denoted as GSPU γ∈{max,avg,std}) which consists of three parallel one-dimensional poolings along the sequence modelling direction: a) global max pooling; b) global average pooling; c) global standard deviation pooling, as shown in equation 3. そこで我々は,3つの並列1次元プーリングからなる統計プーリングユニット(SPU, GSPU γ∂{max,avg,std})を提案している。これは,a)大域的最大プーリング,b)大域的平均プーリング,c)大域的標準偏差プーリング,c)大域的標準偏差プーリングである。 0.69
The SPU operation is applied to the output of MSCNN, as shown in the following equation: 以下の式で示すように、spu演算はmscnnの出力に適用される。 0.63
(x)(cid:1)|α ∈ Ω, γ ∈ {max, avg, std}(cid:111) (x)(cid:1)|α ∈ Ω, γ ∈ {max, avg, std}(cid:111) 0.97
(cid:0)GMSCNN (cid:0)GMSCNN 0.84
GSPU (cid:110) GSPU (cid:110) 0.82
(3) γ α 3. (3) γ α 3. 0.85
MODEL E = In this section, we will discuss the architecture of our model. モデル E = 本稿では,本モデルのアーキテクチャについて論じる。 0.72
We begin with the multi-scale convolutional neural network in use. 我々は,マルチスケール畳み込みニューラルネットワークの使用から始める。 0.84
Next, the grouped parallel pooling layers - named as statistical pooling unit (SPU), and the attention layer are investigated accordingly. 次に,SPU (Statistical pooling Unit) と呼ばれるグループ並列プール層とアテンション層について検討した。
訳抜け防止モード: 次に、グループ化された並列プール層 - 統計プール単位 (SPU) と命名される。 そして、注意層を調査する。
0.70
3.1. Multi-scale CNN 3.1. マルチスケールCNN 0.67
Motivated by the Text-CNN architecture used in [9], We adopt and build multiple CNN layers using a group of filters with different kernel sizes for the two separated path, text and audio. 9]で使用されるtext-cnnアーキテクチャに動機づけられ、二つの分離されたパス、テキストとオーディオに対して、カーネルサイズが異なるフィルタのグループを使用して、複数のcnnレイヤを採用および構築する。 0.63
We name it as Multi-scale CNN (MSCNN). マルチスケールCNN (Multi-scale CNN) と呼ぶ。 0.86
As shown in Figure 1, various single layer two-dimensional convolutions with ReLU activation [13] are applied in parallel to the input features for text and audio. 図1に示すように、ReLUアクティベーション[13]を持つ様々な単層2次元畳み込みを、テキストやオーディオの入力機能と並行して適用する。 0.78
We employ [a1, ..., aN ] to represent the sequence of acoustic feature vectors (i.e. 音響特徴ベクトル(すなわち、音響特徴ベクトル)の列を表すために[a1, ..., ]を用いる。 0.67
MelFrequencycepstral Coefficients, or MFCC) in an utterance , 発話におけるMelFrequencycepstral Coefficients(MFCC) 0.57
3.3. Attention Inspired by the concept of attention mechanism in [1, 3], we propose a bi-modal attention layer build on top of the audioMSCNN-SPU and the text-MSCNN. 3.3. 注意 1, 3]のアテンション機構の概念に触発されて,audiomscnn-spuとtext-mscnn上に構築したバイモーダルアテンション層を提案する。
訳抜け防止モード: 3.3. 注意 1, 3 ] における注意機構の概念に触発された 我々は,オーディオmscnn - spu とテキスト - mscnn 上に構築する bi-modal attention layer を提案する。
0.70
Different from previous work, We consider the outputs from the former as context vectors eγ∈{max,avg,std} (i.e. 以前の研究とは違って、前者からの出力を文脈ベクトル eγ∂{max,avg,std} (すなわち) とみなす。 0.72
the max-pooling, avg-pooling, stdpooling feature vectors from the audio branch). max-pooling, avg-pooling, stdpooling feature vectors from the audio branch)。 0.90
The weighting coefficient sγ k is computed as a product between the context vectors eγ and the kth output feature map from textMSCNN hk in terms of the outputs from max-pooling, avgpooling and std-pooling, respectively, as shown in Figure 1. 重み係数sγkは、図1に示すように、max-pooling、avgpooling、std-poolingの出力の観点で、textmscnn hkからのコンテキストベクトルeγとkth出力特徴マップとの積として計算される。 0.81
The resulting attention vector S is obtained by weighting hk with sγ 得られた注目ベクトルSは、hkとsγを重み付けして得られる 0.69
k, as indicated in the following equations: k は以下の方程式で示される。 0.73
(cid:80) sγ k = (cid:80) sγ k = 0.86
exp(eT k exp(eT exp(eT k exp(eT) 0.95
γhk) γhk) , where γ ∈ {max, avg, std} γhk) γhk) ここで γ ∈ {max, avg, std} は 0.87
(4) (4) 0.85
英語(論文から抽出)日本語訳スコア
Fig. 1. Architecture of the MSCNN-SPU-ATT model. フィギュア。 1. MSCNN-SPU-ATTモデルのアーキテクチャ 0.69
From bottom to top: a) Input layer: prepare MFCC features from the raw audio and word embedding vectors from the text; b) c) d) MSCNN + SPU + Attention: concatenate features extracted at multiple scales followed by statistic pooling units and attention; e) Output layer: emotion classification with softmax layer after dimension reduction for audio and text feature vectors. 入力層: テキストからの生音声および単語埋め込みベクターからMFCC特徴を作成する; b) c) MSCNN + SPU + 注意: 複数のスケールで抽出された特徴を連結し、統計プーリングユニットと注意: e) 出力層: 音声およびテキスト特徴ベクターの次元減少後のソフトマックス層による感情分類。 0.76
(5) (6) enced actors (5 males and 5 females) in both improvised and scripted English conversations. (5) (6) 俳優(男性5人、女性5人)は即興で英語の会話を台本にした。 0.78
For each dialogue, the emotional information is provided in the mode of audio, transcriptions, video, and motion capture recordings. 各対話について、感情情報は音声、転写、ビデオ、モーションキャプチャ記録のモードで提供される。 0.60
We use audio and transcriptions only in this research. 私たちはこの研究でのみ音声と書き起こしを使用します。 0.61
To be comparable with previous researches [1, 2, 3], 4 categories of emotions are used: angry (1103 utterances), sad (1084 utterances), neutral (1708 utterances) and happy (1636 utterances, merged with excited), resulting in a total of 5531 utterances. 以前の研究(1, 2, 3]と比較すると、怒り(1103発話)、悲しみ(1084発話)、中立(1708発話)、幸福(1636発話)の4つの感情カテゴリが使用され、合計5531発話となる。
訳抜け防止モード: 以前の研究[1, 2, 3]に匹敵する 感情のカテゴリーは「怒り」(1103発話)の4つ。 悲しみ(1084発話)、中立(1708発話) and happy (1636 utterances, merge with excited )。 その結果、合計5531発話となった。
0.71
Following previous work, we perform a 10-fold cross-validation with 8, 1, 1 in train, dev, test set respectively. 前回の作業に続いて,列車の8, 1, 1, 開発, テストセットの10倍のクロスバリデーションを行う。 0.75
Every experiment is run for 3 times to avoid randomness, and the averaged result is used as the final performance score. 各実験はランダムさを避けるために3回実行され、最終的なパフォーマンススコアとして平均結果が使用される。 0.76
4.2. Feature Extraction and Implementation Details 4.2. 特徴抽出と実装の詳細 0.79
For the audio feature, we use 32-dimensional MFCC feature (frame size 25 ms, hop length 10 ms with Hamming window) combined with its first- and second-order frame-to-frame difference, making it a feature with dimension of 96 in total. オーディオ機能としては、32次元のMFCC機能(フレームサイズ25ms、ハミングウィンドウ付きホップ長10ms)と、その1階と2階のフレーム間の違いを組み合わせることで、合計96の機能を提供する。 0.80
The MFCC features are extracted using the librosa [15] package. MFCCの特徴はリブロサ[15]パッケージを用いて抽出される。 0.78
Besides, the X-vector embeddings [16] are used as a complementary audio feature, which is extracted from a pre-trained TDNN model on the VoxCeleb dataset [17] in the speaker identification task, using the Kaldi speech recognition toolkit [18]. また、カルディ音声認識ツールキット[18]を用いて、話者識別タスクにおいて、VoxCelebデータセット[17]上の訓練済みTDNNモデルから抽出した補音特徴としてXベクトル埋め込み[16]を用いる。 0.75
For the text feature, we use 300-dimensional GloVe [19] embedding as the pretrained word embedding for the tokenized transcripts. テキストの特徴として,300次元GloVe[19]埋め込みを,トークン化文字の事前学習語埋め込みとして利用する。 0.68
In addition to the ground-truth text provided by the IEMOCAP database, audio-based ASR IEMOCAPデータベースが提供する基盤構造テキストに加えて、オーディオベースのASR 0.70
(cid:88) Sγ = (cid:88) Sγ = 0.83
sγ khk S = concat(Smax, Savg, Sstd) sγ khk S = concat(Smax, Savg, Sstd) 0.87
k 3.4. Classification Layer k 3.4. 分類層 0.78
L = − m(cid:88) L = − m(cid:88) 0.94
For speech emotion classification, audio and text feature vectors from SPU as well as the attended vector are concatenated, combining with SWEM vector which is the concatenation of results from various poolings over the learned word embeddings directly [14]. 音声感情分類では、SPUの音声とテキストの特徴ベクトルと、それに付随するベクトルとを連結し、学習した単語の埋め込みを直接上回る様々なプーリングの結果の結合であるSWEMベクトルとを組み合わせる[14]。 0.85
The resulting vector is passed through a fully-connected layer for dimensionality reduction. 得られたベクトルは、次元性低減のための完全連結層を通過する。 0.67
Finally, a softmax layer is used to classify the input example into one of the m-class emotions, with categorical cross entropy as the loss function: 最後に、softmax層を使用して入力サンプルをmクラスの感情の1つに分類し、カテゴリのクロスエントロピーを損失関数とする。 0.67
yilog(ˆyi) yilog (複数形 yilogs) 0.74
(7) i=1 4. (7) i=1 4. 0.76
EXPERIMENTS We discuss the dataset, feature extraction, implementation details and evaluation results in this section. 実験 本稿では,データセット,特徴抽出,実装の詳細,評価結果について述べる。 0.64
4.1. Data We use the IEMOCAP dataset [4], which is a widely used benchmark in emotion recognition research. 4.1. データ 感情認識研究において広く用いられているベンチマークであるIEMOCAPデータセット[4]を使用する。 0.74
It contains approximately 12 hours of audiovisual data from 10 experi- 10人の実験者による約12時間の映像データを含む。 0.60
英語(論文から抽出)日本語訳スコア
Table 1. Comparison results on the IEMOCAP dataset using speech-only, ground-truth transcript, and ASR processed transcript from Google Cloud Speech API. 表1。 音声のみのIEMOCAPデータセットの比較結果と、Google Cloud Speech APIからのASR処理トランスクリプトの比較を行った。 0.78
‘A’ and ‘T’ represents audio modality and text modality respectively. A’ と ‘T’ はそれぞれ音声のモダリティとテキストのモダリティを表す。 0.72
Bold font indicates best performance. Boldフォントは最高のパフォーマンスを示している。 0.52
Methods Modality WA 方法 モダリティWA 0.64
UA Audio-BRE [3] CNN+LSTM [20] TDNN+LSTM [21] Audio-CNN (ours) Audio-CNN-xvector (ours) UA Audio-BRE [3] CNN+LSTM [20] TDNN+LSTM [21] Audio-CNN(ours) Audio-CNN-xvector(ou rs) 0.80
Speech-only A A A A A 音声のみA A A A 0.63
Ground-truth transcript Text-BRE [3] Text-CNN (ours) MDRE [1] Learning alignment [2] MHA [3] MSCNN-SPU (ours) MSCNN-SPU-ATT (ours) 地中転写物 Text-BRE [3] Text-CNN (ours) MDRE [1] 学習アライメント [2] MHA [3] MSCNN-SPU (ours) MSCNN-SPU-ATT (ours) 0.65
Text-CNN (ours) MDRE [1] Learning alignment [2] MHA [3] MSCNN-SPU (ours) MSCNN-SPU-ATT (ours) テキストCNN (ours) MDRE [1] 学習アライメント [2] MHA [3] MSCNN-SPU (ours) MSCNN-SPU-ATT (ours) 0.89
T T A+T A+T A+T A+T A+T ASR transcript T T A+T A+T A+T A+T ASR転写産物T 0.49
A+T A+T A+T A+T A+T A+T A+T A+T A+T 0.54
64.6% 65.2% 68.8% 59.4% 70.1% 60.7% 65.4% 66.7% 66.6% 68.4% 64.6% 65.2% 68.8% 59.4% 70.1% 60.7% 65.4% 66.7% 66.6% 68.4% 0.60
69.8% 70.3% 67.8% 67.7% 71.8% 72.5% 70.9% 76.5% 77.6% 79.5% 80.4% 80.3% 81.4% 69.8% 70.3% 67.8% 67.7% 71.8% 72.5% 70.9% 76.5% 77.6% 79.5% 80.4% 80.3% 81.4% 0.60
- - 62.4% 61.5% 69.1% 70.4% 69.5% 73.0% 73.9% 77.4% 78.2% 78.0% 79.1% - - 62.4% 61.5% 69.1% 70.4% 69.5% 73.0% 73.9% 77.4% 78.2% 78.0% 79.1% 0.77
transcripts are obtained through the Speech-to-Text API from Google 2. テキストはGoogle 2からSpeech-to-Text APIを通じて取得される。 0.60
The performance of the Google Speech-to-Text API is evaluated in terms of the word error rate (WER), which yields 5.80%. Google Speech-to-Text APIのパフォーマンスは、単語エラー率(WER)の観点から評価され、5.80%となる。 0.80
To implement our model, the filter number is set to 128 for every CNN layer. このモデルを実装するために、各cnn層に対してフィルタ番号を128に設定する。 0.72
In text encoder, SWEM-max and SWEMavg features [14] are obtained from the word embeddings and then appended to the output of text-SPU. テキストエンコーダでは、単語埋め込みからswem-max と swemavg の特徴 [14] を取得し、テキスト-spu の出力に追加する。 0.69
On the other hand, X-vector embeddings are appended to the output of audioSPU. 一方、オーディオSPUの出力にはXベクトル埋め込みが付加される。 0.75
We minimize the cross-entropy loss using Adam optimizer with a learning rate of 0.0005. 我々はAdam Optimizationrを用いて0.0005の学習率でクロスエントロピー損失を最小化する。 0.69
Gradient clipping is employed with a norm 1. 勾配クリッピングは、ノルム1で用いられる。 0.60
The dropout method is applied with a dropout rate of 0.3 for the purpose of regularization. 正則化を目的として、ドロップアウト率0.3でドロップアウト法を適用した。 0.52
The batch size is set to 64. バッチサイズは64に設定される。 0.73
Besides, The evaluation metrics used are weighted accuracy (WA) and unweighted accuracy (UA)3. さらに、使用する評価基準は、重み付け精度(WA)と非重み付け精度(UA)3である。 0.78
Table 2. Ablation study on proposed model. 表2。 提案モデルに関するアブレーション研究 0.77
The gain for each component is shown. 各コンポーネントの利得が示されます。 0.74
Methods MSCNN-SPU-ATT MSCNN-SPU w/o X-vectors w/o Text-SPU (with max-pooling only) w/o Text-SWEM w/o Audio-SPU (with max-pooling only) MSCNN-SPU-ATT MSCNN-SPU w/o X-vectors w/o Text-SPU (max-pooling only) w/o Text-SWEM w/o Audio-SPU (max-pooling only) 0.56
UA WA 80.3% 81.4% 79.5% 80.4% 78.5% 79.3% 77.7% 78.6% 77.2% 78.3% 73.5% 74.0% UA WA 80.3% 81.4% 79.5% 80.4% 78.5% 79.3% 77.7% 78.6% 77.2% 78.3% 73.5% 74.0% 0.62
4.3. Performance Evaluation The experimental results are presented in Table 1. 4.3. 性能評価 実験結果は表1に示されています。 0.77
First, we train models with single modality (utterance or ground-truth transcripts only). まず、単一モダリティ(発話または接地真実のみ)のモデルを訓練する。 0.66
For speech modality, we use MSCNN+SPU as proposed in Section 3. 音声モダリティには,第3節で提案したMSCNN+SPUを用いる。 0.66
Besides, we also report the experimental results using Audio-BRE (LSTM) in [3], CNN+LSTM in [20] and TDNN+LSTM in [21] for comparison. また,[3]ではAudio-BRE(LSTM),[20]ではCNN+LSTM,[21]ではTDNN+LSTMを用いた実験結果を報告する。 0.79
For text modality, we employ MSCNN+SPU to compare with the Text-BRE [3]. テキストモダリティでは、テキストBRE[3]と比較するためにMSCNN+SPUを使用します。 0.65
Second, we compare our proposed approach with other multimodal approaches. 第2に,提案手法を他のマルチモーダルアプローチと比較する。 0.79
One straightforward way is to train one LSTM network for each modality, then concatenating the last hidden state from each, as depicted in MDRE [1]. 1つの簡単な方法は、1つのLSTMネットワークを各モードでトレーニングし、MDRE [1] で示されているように、各モードから最後に隠された状態を連結することです。 0.59
Learning alignment [2] employs an LSTM network to model the sequence for both audio and text. 学習アライメント[2]はLSTMネットワークを用いて音声とテキストの両方のシーケンスをモデル化する。 0.85
Then, a soft alignment between audio and text is performed using attention in the model. そして、モデルを注意して音声とテキストとのソフトアライメントを行う。 0.63
In MHA [3], a so-called multi-hop attention is proposed, using hidden representation of one modality as a context vector and apply attention method to the other modality, then repeating such scheme several times. MHA[3]では、1つのモダリティを文脈ベクトルとして隠れ表現し、他のモダリティにアテンション手法を適用し、そのスキームを何度も繰り返すいわゆるマルチホップアテンションを提案する。 0.69
As shown in Table 1, Our proposed approach achieves the best results on both WA (80.3%) and UA (81.4%) comparing to the other approaches reported in their original papers. 表1に示すように,提案手法はWA (80.3%) とUA (81.4%) の両方で, 従来の論文で報告された他の手法と比較して, 最良の結果が得られる。 0.72
In practical scenario, the ground-truth transcript may not be available. 実際のシナリオでは、基幹文字は利用できない。 0.50
Therefore, we also performed experiments using ASR-processed transcript shown in Table 1. また,表1に示すasr処理された転写産物を用いて実験を行った。 0.60
The ASRprocessed transcript degrades the performance (roughly 2%) comparing to ground-truth transcripts. asr処理された転写物は、地上の転写物と比較して性能(約2%)を低下させる。 0.44
However, the performance of our model is still competitive, specifically, it outperforms the previous SOTA by 5.0% and 5.2% in WA and UA respectively. しかし、我々のモデルの性能は依然として競争力があり、特に以前のSOTAを5.0%、UAは5.2%上回っている。 0.71
Furthermore, we conducted an ablation study to analyze the influence of each component in our model, as illustrated in Table 2. さらに, 表2に示すように, モデルにおける各成分の影響を分析するためのアブレーション実験を行った。 0.82
5. CONCLUSIONS 5. コンキュレーション 0.67
In this paper, we proposed a simple yet effective CNN and attention based neural network to solve the emotion recog- 本稿では,感情リコーグを解決するために,単純かつ効果的なcnnと注意に基づくニューラルネットワークを提案する。 0.71
2Google, Cloud speech-to-text, http://cloud.google. com/speech-to-text/. 2google, cloud speech-to-text, http://cloud.google. com/speech-to-text/ 0.41
3WA: the classification accuracy of all utterances; UA: average of the 3wa: すべての発話の分類精度; ua: 平均値 0.74
accuracy from each individual emotion categories 個々の感情カテゴリーの正確さ 0.84
英語(論文から抽出)日本語訳スコア
nition task from speech. スピーチからのニッションタスク。 0.56
The proposed model combines audio content and text information, forming a multimodal approach for effective emotion recognition. 提案モデルは、音声コンテンツとテキスト情報を組み合わせて、効果的な感情認識のためのマルチモーダルアプローチを形成する。 0.67
Extensive experiments show that the proposed MSCNN-SPU-ATT architecture outperforms previous SOTA in 4-class emotion classification by 5.0% and 5.2% in terms of WA and UA respectively in IEMOCAP dataset. 大規模な実験により、提案したMSCNN-SPU-ATTアーキテクチャは、IEMOCAPデータセットにおいて、WAとUAでそれぞれ5.0%、UAで5.2%、以前のSOTAより優れていることが示された。 0.50
The model is further tested on ASRprocessed transcripts and achieved competitive results which shows its robustness in real world scenario when ground-truth transcripts are not available. このモデルは、ASR処理されたトランスクリプト上でさらにテストされ、地上トランスクリプトが利用できない場合の現実シナリオにおける堅牢性を示す競争結果を得た。 0.48
6. REFERENCES [1] Seunghyun Yoon, Seokhyun Byun, and Kyomin Jung, “Multimodal speech emotion recognition using audio and text,” 12 2018. 6. 参考 [1]Seunghyun Yoon, Seokhyun Byun, and Kyomin Jung, “Multimodal speech emotion recognition using audio and text”. 2018年12月12日閲覧。 0.77
[2] Haiyang Xu, Hui Zhang, Kun Han, Yun Wang, Yiping Peng, and Xiangang Li, “Learning Alignment for Multimodal Emotion Recognition from Speech,” in Proc. [2] haiyang xu, hui zhang, kun han, yun wang, yiping peng, xiang li, “音声認識によるマルチモーダル感情認識のための学習アライメント”をprocで学習する。 0.75
Interspeech 2019, 2019, pp. 文部省、2019年、2019年。 0.53
3569–3573. 3569–3573. 0.71
[3] Seunghyun Yoon, Seokhyun Byun, Subhadeep Dey, and Kyomin Jung, “Speech emotion recognition using multi-hop attention mechanism,” ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. [3] seunghyun yoon, seokhyun byun, subhadeep dey, and kyomin jung, "speech emotion recognition using multi-hop attention mechanism", icassp 2019 - 2019 ieee international conference on acoustics, speech and signal processing (icassp), pp. 0.77
2822–2826, 2019. 2822–2826, 2019. 0.84
[4] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower Provost, Samuel Kim, Jeannette Chang, and Shrikanth Narayanan, Interactive emotional dyadic motion capture database,” Language Resources and Evaluation, vol. 4]carlos busso, murtaza bulut, chi-chun lee, abe kazemzadeh, emily mower provost, samuel kim, jeannette chang, and shrikanth narayanan, interactive emotional dyadic motion capture database", language resources and evaluation, vol. ] (英語) 0.67
42, pp. 335–359, 12 2008. 42, pp。 335–359, 12 2008. 0.84
Sungbok Lee, Sungbok Lee 0.58
“Iemocap: [5] Tin Nwe, S.W. 『iemocap』 [5]Tin Nwe, S.W. 0.67
Foo, and Liyanage De Silva, “Speech emotion recognition using hidden markov models,” Speech Communication, vol. Foo, and Liyanage De Silva, “Speech emotion recognition using hidden Markov model”, Speech Communication, vol. 0.80
41, pp. 603–623, 11 2003. 41, pp。 603–623, 11 2003. 0.84
[6] Daniel Neiberg, K. Ejenius, and K. Laskowski, “Emotion recognition in spontaneous speech using gmms,” INTER SPEECH, pp. 6] Daniel Neiberg, K. Ejenius, K. Laskowski, “Emotion Recognition in spontaneous speech using gmms, Inter SPEECH, pp。 0.75
809–812, 01 2007. 809–812, 01 2007. 0.88
[7] B. Zhang, C. Quan, and F. Ren, “Study on cnn in the recognition of emotion in audio and images,” in 2016 IEEE/ACIS 15th International Conference on Computer and Information Science (ICIS), 2016, pp. 7] b. zhang, c. quan, f. ren, “study on cnn in the recognition of emotion in audio and images” 2016年ieee/acis 15th international conference on computer and information science (icis), 2016年。 0.76
1–5. [8] Dias Issa, M. Fatih Demirci, and Adnan Yazici, “Speech emotion recognition with deep convolutional neural networks,” Biomedical Signal Processing and Control, vol. 1–5. Dias Issa, M. Fatih Demirci, Adnan Yazici, “Speech emotion recognition with Deep Convolutional Neural Network”, Biomedical Signal Processing and Control, vol。 0.69
59, pp. 101894, 2020. 59, pp。 101894, 2020. 0.82
[10] Jakub Nowak, Ahmet Taspinar, and Rafal Scherer, “Lstm recurrent neural networks for short text and sentiment classification,” 05 2017, pp. 10] jakub nowak, ahmet taspinar, rafal scherer, “lstm recurrent neural networks for short text and sentiment classification” 05 2017 pp。 0.65
553–562. [11] Jasmine Bhaskar, K. Sruthi, and Prema Nedungadi, “Hybrid approach for emotion classification of audio conversation based on text and speech mining,” Procedia Computer Science, vol. 553–562. procedia computer science, vol. “[11] jasmine bhaskar, k. sruthi, prema nedungadi, “テキストと音声マイニングに基づく音声会話の感情分類のためのハイブリッドアプローチ”。 0.71
46, pp. 635 – 643, 2015. 46, pp。 635 – 643, 2015. 0.82
[12] Jaejin Cho, Raghavendra Pappagari, Purva Kulkarni, Jes´us Villalba, Yishay Carmiel, and Najim Dehak, “Deep neural networks for emotion recognition combining audio and transcripts,” in INTERSPEECH, 2018. 12] Jaejin Cho, Raghavendra Pappagari, Purva Kulkarni, Jes ́us Villalba, Yishay Carmiel, Najim Dehak, “Deep Neural Network for emotion Recognition with audio and transcripts” in InterSPEECH, 2018”. 2018年5月8日閲覧。 0.91
[13] Vinod Nair and Geoffrey E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in ICML, 2010. 13] Vinod Nair and Geoffrey E. Hinton, “Rectified linear units improve restricted boltzmann machines” in ICML, 2010 0.75
[14] Dinghan Shen, Guoyin Wang, Wenlin Wang, Martin Renqiang Min, Qinliang Su, Yizhe Zhang, Chunyuan Li, Ricardo Henao, and Lawrence Carin, “Baseline needs more love: On simple word-embedding-based models and associated pooling mechanisms,” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Melbourne, Australia, July 2018, pp. 14] Dinghan Shen, Guoyin Wang, Wenlin Wang, Martin Renqiang Min, Qinliang Su, Yizhe Zhang, Chunyuan Li, Ricardo Henao, Lawrence Carin, “Baseline needs more love: On simple word-embedding-based model and associated pooling mechanism” in Proceedings of the 56th Annual Meeting of the Association for Computational Languageistics (Volume 1: Long Papers), Melbourne, Australia, July 2018, pp. 0.85
440–450, Association for Computational Linguistics. 440-450, 計算言語学協会。 0.71
[15] Brian McFee, Colin Raffel, Dawen Liang, Daniel Ellis, Matt Mcvicar, Eric Battenberg, and Oriol Nieto, “librosa: Audio and music signal analysis in python,” 01 2015, pp. [15] brian mcfee, colin raffel, dawen liang, daniel ellis, matt mcvicar, eric battenberg, and oriol nieto, “librosa: audio and music signal analysis in python” 01 2015 pp. (英語) 0.72
18–24. [16] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, “X-vectors: Robust dnn embeddings for speaker recognition,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 18–24. D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, “X-vectors: Robust dnn embeddings for speaker Recognition” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 0.79
5329–5333. 5329–5333. 0.71
[17] Arsha Nagrani, Joon Son Chung, Weidi Xie, and Andrew Zisserman, “Voxceleb: Large-scale speaker verification in the wild,” Computer Speech & Language, vol. 17] arsha nagrani, joon son chung, weidi xie, and andrew zisserman, “voxceleb: large-scale speaker verification in the wild” computer speech & language, vol. 日本語版記事。 0.76
60, pp. 101027, 10 2019. 60, pp。 101027, 10 2019. 0.83
[18] Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Luk´aˇs Burget, Ondrej Glembek, Nagendra Goel, Mirko Hannemann, Petr Motl´ıˇcek, Yanmin Qian, Petr Schwarz, Jan Silovsk´y, Georg Stemmer, and Karel Vesel, “The kaldi speech recognition toolkit,” IEEE 2011 Workshop on Automatic Speech Recognition and Understanding, 01 2011. [18]Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Luk ́a's Burget, Ondrej Glembek, Nagendra Goel, Mirko Hannemann, Petr Motl ́ı'cek, Yanmin Qian, Petr Schwarz, Jan Silovsk ́y, Georg Stemmer, Karel Vesel, “The kaldi speech recognition Toolkit” IEEE 2011 Workshop on Automatic Speech Recognition and Understanding, 01 2011 0.92
[9] Yoon Kim, “Convolutional neural networks for sentence classification,” Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 08 2014. 9]Yoon Kim, “Convolutional Neural Network for sentence classification” 2014 Conference on Empirical Methods in Natural Language Processing, 08 2014 に参加して 0.74
[19] Jeffrey Pennington, Richard Socher, and Christopher D. Manning, “Glove: Global vectors for word representation,” in Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. [19] jeffrey pennington, richard socher, christopher d. manning, “glove: global vectors for word representation” in empirical methods in natural language processing (emnlp), 2014 pp。 0.67
1532–1543. 1532–1543. 0.71
英語(論文から抽出)日本語訳スコア
[20] Aharon Satt, Shai Rozenberg, and Ron Hoory, “Efficient emotion recognition from speech using deep learning on spectrograms,” in INTERSPEECH, 2017. 20] aharon satt氏、shai rozenberg氏、ron hoory氏は2017年、interspeechで、"spectrogramsのディープラーニングを用いた音声からの効率的な感情認識"について語った。
訳抜け防止モード: [20 ]Aharon Satt,Shai Rozenberg,Ron Hoory 「スペクトルを用いた深層学習による音声からの感情認識の効率化」 InterSPEECH、2017年。
0.75
[21] Mousmita Sarma, Pegah Ghahremani, Daniel Povey, Nagendra Kumar Goel, Kandarpa Kumar Sarma, and Najim Dehak, “Emotion identification from raw speech signals using dnns,” in Proc. [21]Mousmita Sarma, Pegah Ghahremani, Daniel Povey, Nagendra Kumar Goel, Kandarpa Kumar Sarma, Najim Dehak, “Emotion Identification from raw speech signal using dnns”, Proc. Proc. 0.79
Interspeech 2018, 2018, pp. 2018年、p.c.、2018年。 0.19
3097–3101. 3097–3101. 0.71
             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。