論文の概要、ライセンス

# (参考訳) LSSED:音声認識のための大規模データセットとベンチマーク [全文訳有]

LSSED: a large-scale dataset and benchmark for speech emotion recognition ( http://arxiv.org/abs/2102.01754v1 )

ライセンス: CC BY 4.0
Weiquan Fan, Xiangmin Xu, Xiaofen Xing, Weidong Chen, Dongyan Huang(参考訳) 音声の感情認識は、次世代のヒューマン・コンピュータ・インタラクション(HCI)に重要な貢献をする。 しかし、現在の小規模データベースは、関連する研究の発展を制限している。 本稿では,820人の被験者から収集したデータを実世界の分布をシミュレートする大規模音声感情データセットであるLSSEDを提案する。 さらに,LSSEDに基づく事前学習モデルもいくつかリリースし,音声感情認識の発達を促進するだけでなく,データを収集することが極めて困難であるメンタルヘルス分析など,関連する下流タスクにも移行できることを示した。 最後に,本実験では大規模データセットの必要性と事前学習モデルの有効性を示す。 datesetはhttps://github.com/t obefans/lssedでリリースされる。

Speech emotion recognition is a vital contributor to the next generation of human-computer interaction (HCI). However, current existing small-scale databases have limited the development of related research. In this paper, we present LSSED, a challenging large-scale english speech emotion dataset, which has data collected from 820 subjects to simulate real-world distribution. In addition, we release some pre-trained models based on LSSED, which can not only promote the development of speech emotion recognition, but can also be transferred to related downstream tasks such as mental health analysis where data is extremely difficult to collect. Finally, our experiments show the necessity of large-scale datasets and the effectiveness of pre-trained models. The dateset will be released on https://github.com/t obefans/LSSED.
公開日: Sat, 30 Jan 2021 11:15:32 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
LSSED: A LARGE-SCALE DATASET AND BENCHMARK FOR SPEECH EMOTION LSSed: 大規模データセットとスペッシュ・エモーションのためのBENCHMARK 0.53
RECOGNITION Weiquan Fan1 認識 Weiquan Fan1 0.64
Xiangmin Xu1 Xiangmin Xu1 0.88
Xiaofen Xing1 Xiaofen Xing1 0.88
Weidong Chen1 Weidong Chen1 0.88
Dongyan Huang2 Dongyan Huang2 0.88
(cid:63) School of Electronic and Information Engineering, South China University of Technology, China (出典:63)中国・南シナ工業大学電子情報工学科 0.62
† UBTECH Robotics Corp, China 中国 UBTECH Robotics Corp。 0.64
1 2 0 2 n a J 1 2 0 2 n a J 0.85
0 3 ] D S . 0 3 ] D S。 0.81
s c [ 1 v 4 5 7 1 0 sc [ 1 v 4 5 7 1 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
ABSTRACT Speech emotion recognition is a vital contributor to the next generation of human-computer interaction (HCI). ABSTRACT 音声の感情認識は、次世代のヒューマン・コンピュータ・インタラクション(HCI)に重要な貢献をする。 0.73
However, current existing small-scale databases have limited the development of related research. しかし、現在の小規模データベースは、関連する研究の発展を制限している。 0.67
In this paper, we present LSSED, a challenging large-scale english speech emotion dataset, which has data collected from 820 subjects to simulate realworld distribution. 本稿では,820人の被験者から収集したデータを実世界の分布をシミュレートする大規模音声感情データセットであるLSSEDを提案する。 0.74
In addition, we release some pre-trained models based on LSSED, which can not only promote the development of speech emotion recognition, but can also be transferred to related downstream tasks such as mental health analysis where data is extremely difficult to collect. さらに,LSSEDに基づく事前学習モデルもいくつかリリースし,音声感情認識の発達を促進するだけでなく,データを収集することが極めて困難であるメンタルヘルス分析など,関連する下流タスクにも移行できることを示した。 0.83
Finally, our experiments show the necessity of large-scale datasets and the effectiveness of pre-trained models. 最後に,本実験では大規模データセットの必要性と事前学習モデルの有効性を示す。 0.71
The dateset will be released on https://github.com/t obefans/LSSED. datesetはhttps://github.com/t obefans/lssedでリリースされる。 0.55
Index Terms— speech emotion recognition, dataset, pre- Index Terms - 音声感情認識、データセット、プレ- 0.82
trained model, deep learning 訓練されたモデル 深層学習 0.70
1. INTRODUCTION Speech emotion recognition (SER) is a necessary part of the human-computer interaction system. 1. 導入 音声認識(SER)は、人間とコンピュータの相互作用システムに必要な部分です。 0.69
Although emotion itself is very abstract, it still has some obvious intonation characteristics. 感情そのものは非常に抽象的ですが、まだ明らかなイントネーション特性があります。 0.64
Intuitively, sad voices are generally low-pitched and slow while happy voices are usually the opposite. 直感的には、悲しい声は通常低ピッチで遅く、幸せな声は通常反対である。 0.67
Up to now, many algorithms have emerged for existing dataset. これまで、既存のデータセットには多くのアルゴリズムが登場した。 0.67
There are lots of researches carried out on SER. SERには多くの研究がなされている。 0.84
In [1], Schuller et al. [1]では、Schullerら。 0.53
applies continuous Hidden Markov Models (HMM) to introduce SER with a self-collected speech corpus. 連続的隠れマルコフモデル(HMM)を適用し、自己収集音声コーパスでSERを導入する。 0.64
Since 2004, some standardized speech emotion databases have been released. 2004年以降、いくつかの標準音声感情データベースがリリースされた。 0.60
AIBO[2], EMODB[3], ENTERFACE[4], RML[5], IEMOCAP[6], AFEW[7], and MELD[8]. AIBO[2], EMODB[3], ENTERFACE[4], RML[5], IEMOCAP[6], AFEW[7], MELD[8]。 0.60
Among them, IEMOCAP[6] and MELD[8] are the databases with the most data. その中でも、IEMOCAP[6]とMELD[8]が最もデータを持つデータベースです。 0.71
IEMOCAP[6] collects 7,433 sentences (13 hours and 40 minutes in total) spoken by 10 people. IEMOCAP[6]は、10人が話す7,433の文(合計13時間40分)を収集する。 0.76
MELD[8] contains 13,708 sentences (about 12 hours) from 407 people. MELD[8]は407人の13,708の文(約12時間)を含む。 0.76
In [9], decision tree is utilized to mitigate error propagation on AIBO[2] and IEMOCAP[6]. 9]では、AIBO[2]とIEMOCAP[6]のエラー伝播を緩和するために決定木が利用される。 0.82
In [10], RBM is applied to learn discriminatory features on EMODB[3] and ENTERFACE[4]. 10]では、EMODB[3]とEnTERFACE[4]の識別機能を学ぶためにRBMを適用します。 0.75
Xiaofen Xing is the corresponding author. Xiaofen Xing が対応する著者である。 0.72
Thanks to Datatang for support. Datatangのサポートに感謝する。 0.84
With the rapid development of deep learning, Zhang et al. 深層学習の急速な発展によって、張ら。 0.61
[11] utilizes DCNN to bridge the affective gap in speech signals on EMODB[3], RML[5], ENTERFACE[4]. 11] EMODB[3]、RML[5]、EnTERFACE[4]の音声信号の感情的なギャップを埋めるためにDCNNを利用します。 0.66
At the same time, Satt et al. 同時に、satとal。 0.46
[12] presents a system based on an end-toend LSTM-CNN with raw spectrograms on IEMOCAP[6]. 12] IEMOCAP[6]の生のスペクトログラムを備えたエンドツーエンドLSTM-CNNに基づくシステムを提示します。 0.73
Recently, Yeh et al. 最近、Yeh et al。 0.61
[13] proposes a dialogical emotion decoding algorithm to consecutively decode the emotion states of each utterance on IEMOCAP[6] and MELD[8]. 13] IEMOCAP[6]およびMELD[8]の各発話の感情状態を連続的にデコードする対話型感情復号アルゴリズムを提案する。 0.74
Although there have been certain level of progression on SER, there is still a potentially serious overfitting problem, which may limit the development of SER. SERにはある程度の進歩がありますが、SERの開発を制限する可能性のある重大なオーバーフィット問題はまだあります。 0.73
As shown in [14– 17], even if a high accuracy is achieved on a certain database, their performance may be poor when transferring to another database. 14–17]に示すように、特定のデータベース上で高い精度を達成しても、他のデータベースに転送する際のパフォーマンスが悪い場合があります。 0.80
This is because the existing databases are generally small in scale, resulting in insufficient diversity, which is far from the real-world scenarios thus leading to the tendency of model overfitting. これは、既存のデータベースが一般的に規模が小さいため、多様性が不十分であり、実際のシナリオとは程遠いため、モデルオーバーフィットの傾向が生まれるためである。 0.74
Therefore, a large-scale emotion dataset that can more comprehensively represent the real distribution is urgently needed to improve the generalization of existing algorithms. したがって、既存のアルゴリズムの一般化を改善するために、実分布をより包括的に表現できる大規模な感情データセットが緊急に必要となる。 0.64
Generally speaking, transfer learning can to a certain extent improve the performance of an algorithm. 一般的に、転送学習はアルゴリズムのパフォーマンスをある程度改善することができます。 0.82
Boigne et al. Boigne et al. 0.85
[18] points out task-related transfer learning of recognizing emotions on small datasets. 18]は,小さなデータセット上での感情認識のタスク関連トランスファー学習を指摘する。 0.68
For emotion recognition related task, a good pre-trained model is urgent since data collection is very difficult. 感情認識関連タスクでは,データ収集が非常に困難であるため,適切な事前学習モデルが急務である。 0.68
Taking the depression detection task as an example, there are only about a hundred subjects at most till date. うつ病検出タスクを例にとると、これまでは100人程度しか対象がありませんでした。 0.58
In our opinion, the pre-trained model from the SER task is more suitable for detecting depression, since it is more inclined to obtain acoustic features while the model from ASR task is prone to extract linguistic features. 本論では,asr課題のモデルが言語的特徴を抽出し易い一方で,音響的特徴を得る傾向が強いため,ser課題からの事前学習モデルの方が抑うつ検出に適していると考える。 0.74
In this paper, we present LSSED, a challenging largescale english dataset for speech emotion recognition. 本論文では,音声認識のための大規模英語データセットであるLSSEDについて述べる。 0.60
It contains 147,025 sentences (206 hours and 25 minutes in total) spoken by 820 people. 820人が話す147,025文(合計206時間25分)が含まれています。 0.76
Based on our dataset, we can simulate a more comprehensive and rich data distribution of realworld scenarios so that deep neural networks can better model their distribution. データセットに基づいて、現実世界のシナリオのより包括的で豊富なデータ分布をシミュレートし、ディープニューラルネットワークが分布をより良くモデル化できるようにします。 0.75
Furthermore, since there is currently no non-semantic large-scale pre-training model, we release some pre-trained models with speech emotion recognition task. さらに,現在,非semantic large-scale pre-trainingモデルが存在しないため,音声感情認識タスクを用いた事前学習モデルもいくつかリリースしている。 0.63
英語(論文から抽出)日本語訳スコア
Corpus AIBO[2] EMODB[3] ENTERFACE[4] RML[5] IEMOCAP[6] AFEW[7] MELD[8] LSSED Corpus AIBO[2] EMODB[3] ENTERFACE[4] RML[5] IEMOCAP[6] AFEW[7] MELD[8] LSSED 0.85
Published Time Language Multiple German English Multiple English Multiple English English 公刊の時間言語 複数ドイツ語 複数英語 複数英語 複数英語 複数英語 0.73
2004 2005 2006 2008 2008 2012 2018 2020 2004 2005 2006 2008 2008 2012 2018 2020 0.85
48401 494 1170 500 7433 1426 13708 147025 48401 494 1170 500 7433 1426 13708 147025 0.85
11 7 6 6 10 7 7 11 11 7 6 6 10 7 7 11 0.85
Table 1. Comparison to existing public speech emotion datasets. 表1。 既存の公開音声感情データセットとの比較 0.72
Speakers Naturalness Number of sentences Classes スピーカーの自然さ 文数 クラス 0.50
51 10 43 8 10 330 407 820 51 10 43 8 10 330 407 820 0.85
Natural Acted Acted Acted Both Acted Acted Natural 自然行為はともに自然行為である。 0.63
h:mm 9:20 0:22 1:00 0:42 12:00 h:mm 9:20 0:22 1:00 0:42 12:00 0.56
unknown 13:40 206:25 不明 13:40 206:25 0.57
2. LSSED In this section, we introduce our dataset, LSSED in details. 2. LSSED このセクションでは、データセット LSSED について詳しく説明します。 0.80
LSSED collects a total of 147,025 utterances from 820 subjects, with an average duration of 5.05s. LSSEDは820の被験者から合計147,025の発話を集め、平均5.05秒である。 0.60
As shown in Table 1, the data volume of LSSED is very large, and its total duration (over 200 hours) can reach dozens of times than existing databases. 表1に示すように、LSSEDのデータ量は非常に大きく、その総持続時間は(200時間以上)既存のデータベースよりも数十倍に達することができます。 0.79
2.1. Collection and Labeling 2.1. コレクションとラベリング 0.68
The subjects that participate in the experiment are widely distributed with representations from both genders and variety of age groups. 実験に参加した被験者は、性別と年齢の異なるグループの両方の表現で広く分布している。 0.74
Each subject would be recorded in one or several emotional videos sessions in an indoor lab environment with a camera pointing at him or her. 各被験者は、屋内のラボ環境で1つまたは複数の感情的なビデオセッションに記録され、カメラが彼または彼女を指している。 0.63
In the video, the subject is induced by random questions as their utterances are associated with an emotional label. ビデオでは、被験者は無作為な質問によって引き起こされ、発話は感情的なラベルに関連付けられる。 0.65
The total length of a video is about 10-20 minutes. ビデオの長さは約10~20分である。 0.78
The utterances in each video dialogue are annotated by a professional annotation team. 各ビデオ対話の発話は、専門家のアノテーションチームによって注釈付けされる。 0.65
Each utterance is annotated with the corresponding emotion label, including anger, happiness, sadness, disappointment, boredom, disgust, excitement, fear, surprise, normal, and other. 各発話には、怒り、幸福、悲しみ、失望、退屈、嫌悪感、興奮、恐怖、驚き、正常など、対応する感情ラベルが付されています。 0.69
Note that some utterances in the video contain two or more emotions. ビデオの発声には2つ以上の感情が含まれている。 0.73
In addition, each utterance is also annotated with auxiliary information, including the gender and age of the subject. また、各発話には、対象の性別や年齢などの補助情報も添付されています。 0.68
2.2. Data Distribution 2.2. データ配信 0.71
As mentioned above, our database covers various groups of people. 上記のように、私たちのデータベースはさまざまなグループをカバーしています。 0.63
Table 2 shows the conditional and joint distribution of the ages and genders. 表2は年齢と性別の条件と共同分布を示しています。 0.82
In LSSED, the gender distribution is relatively balanced. LSSEDでは、性別分布は比較的バランスが取れている。 0.68
The age distribution however has fewer elderly people. しかし、年齢分布は高齢者が少ない。 0.73
Table 2. Data distribution for gender and age. 表2。 性別と年齢のデータ分布。 0.73
Female Male Total Young Middle-aged Old Total 485 253 335 155 408 820 女性男性総計 若き中年 総計 485 253 335 155 408 820 0.61
167 141 308 167 141 308 0.85
65 39 104 Fig. 65 39 104 フィギュア。 0.64
1. Distribution of data for each emotion labels 1. 感情ラベル毎のデータ分布 0.74
A pie chart of the distribution of data for emotion labels is shown in Fig 1. 感情ラベルのデータ分布の円グラフを図1に示します。 0.62
Since the subjects speak in a spontaneous environment, the more common neutral samples accounted for a larger proportion. 被験者は自然環境下で話すため、より一般的な中性サンプルの方が大きな割合を占める。 0.69
Next is happy, sad, disappointed, excited, and angry samples respectively. 次は、それぞれ幸せ、悲しい、失望、興奮、怒っているサンプルです。 0.75
The samples of these six categories account for 81% of the total sample. これら6つのカテゴリのサンプルは、全サンプルの81%を占める。 0.81
Then, the samples of boring, disgusting, fearful, and surprised are fewer, accounting for only 6%. その後、退屈、嫌がらせ、恐怖、そして驚きのサンプルは少なく、わずか6%を占めます。 0.69
In addition, 13% of other uncommon samples can be used for tasks to distinguish whether they are common emotions. さらに、他のまれなサンプルの13%は、共通の感情であるかどうかを識別するタスクに使用できる。 0.71
In order to standardize future training benchmarks, we divided our LSSED dataset into training and test sets. 将来のトレーニングベンチマークを標準化するために、LSSEDデータセットをトレーニングとテストセットに分割しました。 0.55
Specifically, we first shuffle the order of all samples, then set 20% of the samples as the test set, and the rest as the training set. 具体的には、まずすべてのサンプルの順序をシャッフルし、次にテストセットとしてサンプルの20%を、残りはトレーニングセットとして設定します。 0.76
It should be noted that we ensure the distribution of each emotion category in the training set and test set are the same or at least similar. トレーニングセットとテストセットにおける各感情カテゴリの分布が同じか、あるいは少なくとも類似していることに注意が必要です。 0.76
Table 3 shows the specific distribution of data for emotion labels in the training set and test set respectively. 表3は、それぞれトレーニングセットとテストセットにおける感情ラベルのデータの特定の分布を示す。 0.86
2.3. Preprocessing and feature extraction 2.3. 前処理と特徴抽出 0.79
After obtaining the videos, we then convert them into audio signals at a sampling rate of 16kHz. ビデオを取得した後、16kHzのサンプリングレートでオーディオ信号に変換します。 0.61
According to the start time and end time of each utterance, we cut out 147,025 audio utterances. 各発話の開始時間と終了時間に応じて、147,025個の音声発話をカットした。 0.72
For each sentence, we use spectral subtraction algorithm [19] to perform audio denoising. 各文に対して,スペクトル減算アルゴリズム [19] を用いて音声の弁別を行う。 0.83
It subtracts noise on the short-time spectrum and then restores the audio. 短時間スペクトルのノイズを減算し、オーディオを復元します。 0.74
Next, 次に 0.73
英語(論文から抽出)日本語訳スコア
Table 3. Distribution of data for emotion labels in the subsets. 表3。 サブセット内の感情ラベルのためのデータの分布。 0.79
Test 5192 48369 21627 9641 7124 2333 2543 4182 1325 502 14782 29405 Test 5192 48369 21627 9641 7124 2333 2543 4182 1325 502 14782 29405 0.85
Total 6490 60461 27033 12051 8905 2916 3179 5228 1656 628 18478 147025 Total 6490 60461 27033 12051 8905 2916 3179 5228 1656 628 18478 147025 0.85
Angry Neutral Happy Sad Disappointed Bored Disgusted Excited Surprise Fear Other Total Angry Neutral Happy Sad Disappointed Bored Disgusted Surprise Fear Other Total 0.78
Training 1298 12092 5406 2410 1781 583 636 1046 331 126 3696 117620 訓練 1298 12092 5406 2410 1781 583 636 1046 331 126 3696 117620 0.81
we increase the audio volume by a factor of 2 to make the sound louder. 音量を2倍に上げて音を大きくします。
訳抜け防止モード: オーディオの音量を2倍に増やします 音を大きくするために。
0.65
After preprocessing, we perform STFT with Hann window length of 1024 points and the window shift of 512 points. 前処理後,Hannウィンドウ長1024点,ウィンドウシフト512点のSTFTを行う。 0.57
A square operation follows to obtain the power spectrum. パワースペクトルを得るために平方演算が実行される。 0.66
The power spectrum is then passed through a triangular filter bank with 128 Mel-scales to simulate the human auditory perception system. パワースペクトルは、人間の聴覚知覚システムをシミュレートするために、128メルスケールの三角フィルタバンクを通過する。 0.73
2.4. Pre-trained Models 2.4. 事前学習モデル 0.70
We firstly select VGG [20] and ResNet [21] for pre-training, which are useful in many scenarios. まずプレトレーニングにvgg [20] と resnet [21] を選択し,多くのシナリオで有用である。 0.76
VGG builds a unified and simple structure to deepen the network, while ResNet proposes residual learning to ease the training procedure. VGGはネットワークを深めるために統一されたシンプルな構造を構築し、ResNetはトレーニング手順を容易にするために残存学習を提案します。 0.64
In order to better adapt to the specificity of speech, we propose PyResNet, an improved model of ResNet [21]. 音声の特異性に適応するために、ResNetの改良モデルであるPyResNet[21]を提案します。 0.65
Due to the sufficient amount of data, PyResNet is based on ResNet50, ResNet101 or ResNet152. 十分なデータ量のために、PyResNetはResNet50、ResNet101またはResNet152に基づいています。 0.66
Specifically, the second convolution layer in each layer of ResNet is replaced with a pyramid convolution [22] that can capture multi-scale information to solve the problem of uncertain time position of valid speech information. 具体的には、resnetの各層における第2畳み込み層をマルチスケール情報をキャプチャ可能なピラミッド畳み込み[22]に置き換え、有効な音声情報の不確定な時間位置の問題を解決する。 0.74
In addition, we replaced the GAP layer with average pooling layer only in the time dimension to make the model insensitive to time and preserve the frequency information. さらに,ギャップ層を時間次元のみの平均プーリング層に置き換え,モデルが時間に敏感にならないようにし,周波数情報を保存した。 0.82
3. DATASET EXPERIMENTS 3. データセット実験 0.62
3.1. Effectiveness of LSSED 3.1. LSSEDの有効性 0.79
Although the current algorithms have achieved good results on many small-scale datasets, pre-trained models often cannot be well generalized to other datasets. 現在のアルゴリズムは、多くの小規模データセットで良い結果を得たが、事前学習されたモデルは、しばしば他のデータセットにうまく一般化できない。 0.60
This triggered our thinking about the scale of databases resulting in the collection and building of a large amount of database, that can be informative enough to train a model with good generalization. これは、データベースの規模について考え、大量のデータベースの収集と構築につながりました。これは、良い一般化のモデルを訓練するのに十分有益です。 0.76
In order to verify the effectiveness of different-scale datasets, we calculate the performance degradation based on ResNet152 as shown in Table 4. 異なるスケールのデータセットの有効性を検証するため、表4に示すResNet152に基づく性能劣化を計算した。 0.84
As indicated, the performance degradation is very large when the model trained from small-scale IEMOCAP[6] is tested on large-scale LSSED, while it is less when tested from large-scale to small-scale. 示したように、小規模のIEMOCAP[6]から訓練されたモデルが大規模のLSSEDでテストされると、パフォーマンスの低下が非常に大きくなります。 0.76
This demonstrates the effectiveness of LSSED, since it simulates the real-world distribution. これは、実世界の分布をシミュレートするため、LSSEDの有効性を示す。 0.70
Table 4. Performance degradation when testing in the target database compared with the source database (training in the source database). 表4。 ターゲットデータベースでテストする場合のパフォーマンス低下は、ソースデータベース(ソースデータベースでトレーニング)と比較される。 0.78
Target Source IEMOCAP LSSED LSSED ターゲットソース IEMOCAP LSSED LSSED 0.77
-UA 0.342 0.071 -UA 0.342 0.071 0.52
-WA 0.596 0.119 -WA0.596 0.119 0.50
IEMOCAP 3.2. IEMOCAP 3.2. 0.78
Speech Emotion Recognition Benchmark 音声感情認識ベンチマーク 0.77
We investigate some papers [23–25] with open source code from recent SER papers. 最近のSER論文のオープンソースコードを用いた論文 [23–25] を調査した。 0.66
Also, we carry out a series of contrast experiments based on commonly used backbone models, including VGG and ResNet. また、VGGやResNetなど、一般的に使用されるバックボーンモデルに基づいた一連のコントラスト実験も実施しています。 0.70
In addition, we also test our PyResNet model mentioned in Section 2.4. さらに、セクション2.4で述べたPyResNetモデルもテストしています。 0.71
In the experiments, all algorithms use the training set and test set from LSSED. 実験では、全てのアルゴリズムがLSSEDからトレーニングセットとテストセットを使用する。 0.83
The models of existing algorithms are based on the configuration in the original papers. 既存のアルゴリズムのモデルは、元の論文の構成に基づいています。 0.81
Our PyResNet and the backbone models are iterated for 60 epochs with batch size of 256 through the SGD optimizer with a weight decay of 0.001. 我々のPyResNetとバックボーンモデルは、SGDオプティマイザによるバッチサイズ256の60のエポックに対して0.001の重量減衰を繰り返す。 0.63
The learning rate (initialized to 0.01) drops to 10% of the original every 20 epochs. 学習率(初期化は0.01)は20エポックごとにオリジナルの10%に低下する。 0.83
Consistent with the current mainstream SER experiments, we use four emotion categories, including angry, neutral, happy and sad. 現在のメインストリームのser実験と一致して、怒り、中立、幸福、悲しみの4つの感情カテゴリを使用します。 0.64
The results are shown in table 5. 結果は表5に示されます。 0.82
This shows that the performance of existing algorithms on large-scale LSSED is not satisfactory. この結果から,大規模LSSEDにおける既存アルゴリズムの性能は不十分であることが示唆された。 0.59
More importantly, the accuracy (weighted and unweighted) of these algorithms is even lower than that of the basic VGG and ResNet models. さらに重要なことに、これらのアルゴリズムの精度(重み付けと重み付けなし)は、基本的なvggおよびresnetモデルよりもさらに低い。 0.80
In addition, it is worth noting that our PyResNet achieves better results than the basic backbone models. さらに、私たちのpyresnetは、基本的なバックボーンモデルよりも優れた結果を得ています。 0.69
This demonstrates that the improvement based on pyramid convolution is effective on large-scale database. これは、ピラミッドの畳み込みに基づく改善が大規模データベースに有効であることを示す。 0.69
Since these algorithms are not excellent in overall performance on large-scale databases, it should be indicated that LSSED still has great challenges which means that speech emotion recognition is still a long way from being perfectly widely applicable. これらのアルゴリズムは大規模データベースの全体的なパフォーマンスに優れていないため、LSSEDはまだ大きな課題があり、音声認識が完全に広く適用されるまでにはまだ長い道のりであることを示す必要があります。 0.70
Confusion matrices of both MTS-3 branches and PyResNet that use ResNet152 as the backbone is shown below. MTS-3ブランチとResNet152をバックボーンとして使用するPyResNetの融合行列を以下に示す。 0.74
Although they all use multi-scale convolution kernels, the former uses multi-scale kernels derived from one kernel, while the latter directly uses multiple different kernels with more powerful modeling capabilities. いずれもマルチスケールの畳み込みカーネルを使用しているが、前者は1つのカーネルから派生したマルチスケールカーネルを使用し、後者はより強力なモデリング機能を持つ複数の異なるカーネルを直接使用する。 0.55
As shown in Figure 2, we can observe that neutral samples have a high probability of being correctly predicted, which is also the most common 図2に示すように、中性サンプルは正しく予測される可能性が高く、これは最も一般的なものでもあります。 0.76
英語(論文から抽出)日本語訳スコア
Table 5. The performance of different methods on LSSED. テーブル5。 LSSED上の異なるメソッドのパフォーマンス。 0.74
VGG16 VGG16 VGG16 VGG16 0.71
Backbone WA Algorithm 0.570 FCN-Attention[23] ALEXNet 0.570 MTS-3branches[24] ALEXNet MTS-5branches[24] ALEXNet 0.570 0.585 MTS-3branches[24] ResNet152 0.582 MTS-5branches[24] ResNet152 0.570 ADV-Real[25] ADV-Fake[25] 0.570 0.548 ADV-Real[25] 0.453 ADV-Fake[25] 0.595 VGG[20] VGG[20] 0.604 0.585 VGG[20] 0.585 VGG[20] 0.594 ResNet[21] ResNet[21] 0.598 0.587 ResNet[21] 0.592 ResNet[21] 0.601 ResNet[21] 0.615 PyResNet 0.616 PyResNet 0.624 PyResNet バックボーン waアルゴリズム 0.570 fcn-attention[23] alexnet 0.570 mts-3branches[24] alexnet 0.570 0.585 mts-3branches[24] resnet152 0.582 mts-5branches[24] resnet152 0.570 adv-real[25] adv-fake[25] 0.570 0.548 adv-real[25] 0.453 adv-fake[25] 0.595 vgg[20] vgg[20] 0.604 0.585 vgg[20] 0.585 resnet[21] 0.594 resnet[21] resnet[21] 0.598 0.58787 resnet[21] resnet[21] 0.5151 resnet[21] 0.6151 rev-real[25] pyrererenet[25] 0.6151 0.570 0.570 0.548 adv-real[25] 0.595 vgg[20] 0.595 vgg[20] 0.504 0.504 0.585 vgg[20] 0.585 vgg[20] 0.585 vgg[20] 0.45
VGG11 VGG13 VGG16 VGG19 ResNet18 ResNet34 ResNet50 ResNet101 ResNet152 ResNet50 ResNet101 ResNet152 VGG11 VGG13 VGG16 ResNet18 ResNet34 ResNet50 ResNet101 ResNet152 ResNet50 ResNet101 ResNet152 0.66
ResNet152 ResNet152 ResNet152 ResNet152 0.71
UA 0.250 0.250 0.250 0.296 0.311 0.250 0.250 0.381 0.339 0.337 0.393 0.313 0.370 0.382 0.355 0.377 0.332 0.396 0.420 0.428 0.429 UA 0.250 0.250 0.250 0.296 0.311 0.250 0.250 0.381 0.339 0.337 0.393 0.313 0.370 0.382 0.355 0.377 0.332 0.396 0.420 0.428 0.429 0.42
emotion. But we should also note that both models have a prediction bias problem for the neutral class. 感情 しかし、両方のモデルが中立クラスに対して予測バイアス問題を持っていることに注意する必要がある。
訳抜け防止モード: 感情 しかし 注意すべきなのは どちらのモデルも中立クラスには予測バイアス問題がある。
0.64
We speculate that this is because each individual has different neutral standards. これは各個人が異なる中立性基準を持っているためと推測する。 0.58
In our future work, we will also take into account the resting (neutral) state of each individual. 今後の作業では、各個人の休息状態(中立状態)も考慮に入れます。 0.56
In comparison, our PyResNet has a significant improvement in the angry, happy, and sad categories which are less predictable. 比較すると、私たちのPyResNetは怒り、幸せ、悲しみのカテゴリで大幅に改善されています。 0.69
Fig. 2. Confusion matrices of different algorithms. フィギュア。 2. 異なるアルゴリズムの融合行列。 0.64
cient prior knowledge to improve the detection accuracy. 検出精度を向上させるためのcient事前知識。 0.75
These series of experiments are carried out on the DAICWOZ depression database, which is a subset of the Distress Analysis Interview Corpus (DAIC) [26]. これらの一連の実験は、Distress Analysis Interview Corpus (DAIC) [26] のサブセットであるDAICWOZうつ病データベース上で実施されている。 0.76
There are 107 subjects in the training set, 35 in the development set, and 47 in the test set. トレーニングセットには107の被験者、開発セットには35の被験者、テストセットには47の被験者がいます。 0.65
Each subject will be interviewed by an animated virtual interviewer and recorded with video and audio equipments. 各テーマは、アニメーションのバーチャルインタビュアーにインタビューされ、ビデオやオーディオ機器で録音される。 0.65
The data will be annotated with the start time, end time and depression (or not) of each sentence. データは、各文の開始時間、終了時間、およびうつ病(またはそうではない)でアノテートされます。 0.66
We choose SER task and ASR task for transfer. 転送にはSERタスクとASRタスクを選択します。 0.70
Firstly, we need to get the pre-trained models. まず、トレーニング済みのモデルを入手する必要があります。 0.61
For SER, we use the pretrained PyResNet with ResNet152 as a backbone. SERでは、事前トレーニング済みのPyResNetとResNet152をバックボーンとして使用します。 0.64
For ASR, we use ESPNet [27], which is an end-to-end encoder-decoder structure network. ASRでは,エンド・ツー・エンドのエンコーダ・デコーダ構造ネットワークであるESPNet[27]を使用する。 0.65
Table 6. The performance of different pre-trained models on DAIC-WOZ. 表6。 DAIC-WOZにおける各種事前訓練モデルの性能 0.73
Algorithm ESPNet (ASR) PyResNet (SER) アルゴリズムESPNet (ASR) PyResNet (SER) 0.70
WA 0.657 0.714 WA 0.657 0.714 0.59
UA 0.500 0.583 UA 0.500 0.583 0.59
The results of the experiment are shown in Table 6. 実験の結果は表6に示されています。 0.86
The performance of transfer based on SER is better than that based on ASR. SERに基づく転送性能は、ASRに基づく転送性能よりも優れている。 0.81
This is because the features extracted by ASR are bias towards semantics while the features extracted by SER are bias towards acoustics. これは、ASRが抽出した特徴が意味論に偏り、SERが抽出した特徴が音響学に偏りがあるためである。 0.63
Depression detection pays more attention to acoustic features which has larger gaps with ASR tasks. 抑圧検出は、ASRタスクとのギャップが大きい音響特性にもっと注意を払います。 0.68
Therefore, the pre-trained model on SER with a smaller gap has better performance. したがって, SER の事前学習モデルでは, ギャップが小さいため, 性能が向上する。 0.70
Moreover, we also considered the differences in bandwidth between SER and ASR when framing. さらに,serとasr間の帯域幅の違いについても検討した。 0.70
ASR generally uses a narrow window length of about 25ms. ASRは通常、幅約25msの狭い窓を使用する。 0.73
This means that it pays more attention to changes in time and has a higher time resolution. つまり、時間の変化にもっと注意を払って、より高い時間分解能を持つということです。 0.61
For SER, we use a wide window length of about 65ms, which means that the frequency information in each frame is richer and the frequency resolution is higher. SERの場合、約65msの幅の窓長を使用するため、フレームごとの周波数情報がよりリッチになり、周波数分解能が高くなる。 0.76
In general, a high time resolution is conducive to extracting semantic features from frame by frame and a high frequency resolution is conducive to extracting acoustic features. 一般に、高速解像度はフレームごとに意味的特徴を抽出し、高周波解像度は音響特徴を抽出するのに役立ちます。 0.69
Therefore, for downstream tasks such as depression detection, the SER pre-trained model with high frequency resolution and smaller gap may be a better choice. したがって、抑うつ検出などの下流タスクでは、高周波数分解能とギャップの小さいSER事前学習モデルの方が良い選択である。 0.63
4. CONCLUSION 3.3. 4. 結論 3.3. 0.69
Pre-trained Model in Downstream Task 下流作業における事前学習モデル 0.61
With the above pre-trained models, we want to further explore its applicability to downstream tasks. 上記の事前訓練されたモデルでは、下流タスクへの適用性をさらに探求したい。 0.63
We choose speechbased depression detection as our downstream task. 下流課題として音声による抑うつ検出を選択する。 0.49
Due to the high professional requirements, it is very difficult to collect data on patients with depression. 高い専門要件のために、うつ病患者のデータを収集することは非常に困難です。 0.75
This leads to the current unsatisfactory effect of automatic depression detection. これは、自動うつ病検出の現在の不満足な効果につながります。 0.52
It is therefore a natural idea to use a pre-trained model with suffi- したがって、suffiを用いた事前学習モデルを使うのは自然な考えである。 0.53
In this work, we present LSSED, a challenging large-scale english database for speech emotion recognition that can simulate real distribution. 本稿では,実分布をシミュレート可能な音声感情認識のための大規模英語データベースlssedを提案する。 0.67
We point out that existing algorithms tend to overfit small-scale databases and thus cannot be well generalized to real scenes. 既存のアルゴリズムは、小規模データベースに過剰に適合する傾向があるため、実際のシーンにうまく一般化できないことを指摘した。 0.63
Furthermore, we release some pretrained models based on LSSED. さらに, LSSEDに基づく事前学習モデルもリリースする。 0.72
These models can not only promote the development of SER, but can also be transferred to similar downstream tasks like mental health analysis where data is extremely difficult to collect. これらのモデルは、SERの開発を促進するだけでなく、データ収集が非常に困難なメンタルヘルス分析のような同様の下流のタスクに転送することもできます。 0.75
AngryNeutralHappySad Angry5.48%72.47%20.1 2%1.93%Neutral0.08%9 5.17%4.12%0.63%Happy 0.24%85.04%13.42%1.3 0%Sad0.17%91.31%3.99 %4.53%AngryNeutralHa ppySadAngry32.43%47. 23%16.56%3.78%Neutra l1.45%86.85%9.54%2.1 7%Happy2.77%59.85%35 .18%2.20%Sad2.12%71. 04%9.83%17.01%Thecon fusionmatrixofMTS-3b ranchesTheconfusionm atrixofourPyResNet(b )(a) AngryNeutralHappySad Angry5.48%72.47%20.1 2%1.93%Neutral0.08%9 5.17%4.12%0.63%Happy 0.24%85.04%13.42%1.3 0%Sad0.17%91.31%3.31 %3.99%4.53%AngryNeut ralHappySadAngry32.4 3%47.23%16.56%3.78%N eutral1.45%86.85%9.5 4%2.17%Happy2.77%59. 85%35.18%2.12%220%Sa d2.12%74%9.83%17.01% Theconfusionmatrixof MT-3brachestheconfou rs(Netb) 0.55
英語(論文から抽出)日本語訳スコア
References [1] B. Schuller, G. Rigoll, and M. Lang, “Hidden markov modelbased speech emotion recognition,” in 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. 参考文献 [1] B. Schuller, G. Rigoll, M. Lang, “Hidden Markov model based speech emotion recognition” in 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003。 0.77
Proceedings.(ICASSP’03). Proceedings. (ICASSP'03)。 0.79
IEEE, 2003, vol. IEEE、2003年、vol。 0.81
2, pp. II–1. 2、p。 II-1。 0.59
[2] A. Batliner, C. Hacker, S. Steidl, E. N¨oth, S. D’Arcy, M. J. Russell, and M. Wong, “” you stupid tin box”-children interacting with the aibo robot: A cross-linguistic emotional speech corpus.,” in Lrec, 2004. [2] a. batliner, c. hacker, s. steidl, e. n soth, s. d’arcy, m. j. russell, m. wong, “” you stupid tin box”-children interaction with the aibo robot: a cross-linguistic emotional speech corpus.” (2004年) 0.82
[3] F. Burkhardt, A. Paeschke, M. Rolfes, W. F. Sendlmeier, and B. Weiss, “A database of german emotional speech,” in Ninth European Conference on Speech Communication and Technology, 2005. [3] f. burkhardt, a. paeschke, m. rolfes, w. f. sendlmeier, b. weiss, "a database of german emotional speech", in nine european conference on speech communication and technology, 2005 (英語) 0.86
[4] O. Martin, I. Kotsia, B. Macq, and I. Pitas, “The enterface’05 audio-visual emotion database,” in 22nd International Conference on Data Engineering Workshops (ICDEW’06). O. Martin, I. Kotsia, B. Macq, I. Pitas, “The enterface’05 audio-visual emotion database” in 22nd International Conference on Data Engineering Workshops (ICDEW’06)。 0.82
IEEE, 2006, pp. IEEE, 2006, pp。 0.78
8–8. [5] Y. Wang and L. Guan, “Recognizing human emotional state from audiovisual signals,” IEEE transactions on multimedia, vol. 8–8. 5] Y. Wang, L. Guan, “人間の感情状態を視覚的信号から認識する”, IEEEのマルチメディアトランザクション, vol. 0.77
10, no. 5, pp. 10、いいえ。 5, pp。 0.77
936–946, 2008. 936–946, 2008. 0.84
[6] C. Busso, M. Bulut, C.-C. Lee, A. Kazemzadeh, E. Mower, S. Kim, J. N. Chang, S. Lee, and S. S. Narayanan, “Iemocap: Interactive emotional dyadic motion capture database,” Language resources and evaluation, vol. C. Busso, M. Bulut, C.-C. Lee, A. Kazemzadeh, E. Mower, S. Kim, J. N. Chang, S. Lee, S. S. Narayanan, “Iemocap: Interactive emotional dyadic motion capture database”, Language Resource and Evaluation, Vol. 0.95
42, no. 4, pp. 42、ノー。 4, pp。 0.77
335, 2008. 335, 2008. 0.85
“Collecting large, richly annotated facial-expression databases from movies,” IEEE multimedia, , no. ieee multimedia, ieee multimedia, no. “巨大で豊富な注釈付き表情データベースを映画から集める”。 0.64
3, pp. 34–41, 2012. 3、p。 34–41, 2012. 0.74
[7] A. Dhall, R. Goecke, S. Lucey, and T. Gedeon, 7] A. Dhall、R. Goecke、S. Lucey、T. Gedeon。 0.79
[8] S. Poria, D. Hazarika, N. Majumder, G. Naik, E. Cambria, and R. Mihalcea, “Meld: A multimodal multi-party dataset arXiv preprint for emotion recognition in conversations,” arXiv:1810.02508, 2018. 8] S. Poria, D. Hazarika, N. Majumder, G. Naik, E. Cambria, R. Mihalcea, “Meld: A multimodal multi-party dataset arXiv preprint formotion recognition in conversation”. arXiv:1810.02508, 2018 0.96
[9] C.-C. Lee, E. Mower, C. Busso, S. Lee, and S. Narayanan, “Emotion recognition using a hierarchical binary decision tree Speech Communication, vol. 9]C.-C. Lee, E. Mower, C. Busso, S. Lee, S. Narayanan, “階層的二分決定木音声通信を用いた感情認識, vol。 0.81
53, no. 9-10, pp. 53、ノー。 9-10, pp。 0.77
approach,” 1162–1171, 2011. と2011年1162-1171。 0.54
[10] A. Stuhlsatz, C. Meyer, F. Eyben, T. Zielke, G. Meier, and B. Schuller, “Deep neural networks for acoustic emotion recognition: Raising the benchmarks,” in 2011 IEEE international conference on acoustics, speech and signal processing (ICASSP). A. Stuhlsatz, C. Meyer, F. Eyben, T. Zielke, G. Meier, B. Schuller, “Deep Neural Network for Acoustic emotion Recognition: Raising the benchmarks” in 2011 IEEE International conference on Acoustics, speech and signal processing (ICASSP)”. IEEEは2011年に開催された。 0.85
IEEE, 2011, pp. IEEE, 2011, pp。 0.78
5688–5691. 5688–5691. 0.71
[11] S. Zhang, S. Zhang, T. Huang, and W. Gao, “Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching,” IEEE Transactions on Multimedia, vol. S. Zhang, S. Zhang, T. Huang, W. Gao, “Speech emotion recognition using Deep Convolutional Neural Network and discriminant temporal pyramid matching”, IEEE Transactions on Multimedia, Vol. 0.77
20, no. 6, pp. 20、いいえ。 6, pp。 0.77
1576–1590, 2017. 1576–1590, 2017. 0.84
[12] A. Satt, S. Rozenberg, and R. Hoory, “Efficient emotion recognition from speech using deep learning on spectrograms.,” in Interspeech, 2017, pp. A. Satt, S. Rozenberg, R. Hoory, “Efficient emotion recognition from speech using Deep Learning on spectrograms”. Interspeech, 2017。
訳抜け防止モード: [12 ]A. Satt, S. Rozenberg, R. Hoory 音声による感情認識の効率化 分光器の深層学習」。 In Interspeech , 2017 , pp。
0.75
1089–1093. 1089–1093. 0.71
[13] S.-L. Yeh, Y.-S. Lin, and C.-C. Lee, “A dialogical emotion decoder for speech motion recognition in spoken dialog,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 13] s.-l. yeh, y.-s. lin, c.-c. lee, “a dialogical emotion decoder for speech motion recognition in spoken dialog” in icassp 2020-2020 ieee international conference on acoustics, speech and signal processing (icassp) 0.86
IEEE, 2020, pp. IEEE, 2020, pp。 0.82
6479–6483. 6479–6483. 0.71
[14] Y. Zong, W. Zheng, T. Zhang, and X. Huang, “Cross-corpus speech emotion recognition based on domain-adaptive leastsquares regression,” IEEE signal processing letters, vol. Y.Zong, W. Zheng, T. Zhang, X. Huang, “Cross-corpus speech emotion Recognition based on domain-adaptive leastsquares regression”, IEEE signal processing letter, vol。 0.81
23, no. 5, pp. 23, ダメよ 5, pp。 0.73
585–589, 2016. 585–589, 2016. 0.84
[15] M. Abdelwahab and C. Busso, “Domain adversarial for acoustic emotion recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. [15]M. Abdelwahab,C. Busso, “Domain adversarial for Acoustic emotion Recognition, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 0.91
26, no. 12, pp. 2423– 2435, 2018. 26だ 12、p。 2423– 2435, 2018. 0.68
[16] N. Liu, Y. Zong, B. Zhang, L. Liu, J. Chen, G. Zhao, and J. Zhu, “Unsupervised cross-corpus speech emotion recognition using domain-adaptive subspace learning,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). N. Liu, Y. Zong, B. Zhang, L. Liu, J. Chen, G. Zhao, J. Zhu, “Unsupervised cross-corpus speech emotion recognition using domain-adaptive subspace learning” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)。 0.88
IEEE, 2018, pp. IEEE, 2018, pp。 0.82
5144–5148. 5144–5148. 0.71
[17] H. Luo and J. Han, “Nonnegative matrix factorization based transfer subspace learning for cross-corpus speech emotion recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 17] H. Luo と J. Han, "Nonnegative matrix factorization based transfer subspace learning for cross-corpus speech Speech Recognition", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol。 0.88
28, pp. 2047–2060, 2020. 28, pp。 2047–2060, 2020. 0.82
[18] J. Boigne, B. Liyanage, and T. ¨Ostrem, “Recognizing more emotions with less data using self-supervised transfer learning,” 2020. 18] J. Boigne、B. Liyanage、T. Ostremは、「自己監督の転送学習を使用して、より少ないデータでより多くの感情を認識します。
訳抜け防止モード: 18 ] J. Boigne, B. Liyanage, T. Ostrem, 「少ないデータでより多くの感情を認識する」 自分を使って 監督された転送学習、2020年。
0.67
[19] N. Upadhyay and A. Karmakar, “Speech enhancement using spectral subtraction-type algorithms: A comparison and simulation study,” Procedia Computer Science, vol. N. Upadhyay, A. Karmakar, “Speech enhancement using spectrum subtraction-type algorithm: A comparison and Simulation study, Procedia Computer Science, vol。
訳抜け防止モード: 19 ] N. Upadhyay と A. Karmakar の「スペクトル減算を用いた音声強調 - 型アルゴリズム : 比較とシミュレーション研究」 Procediaのコンピュータ科学、vol。
0.84
54, pp. 574– 584, 2015. 54, pp。 574– 584, 2015. 0.89
[20] K. Simonyan and A. Zisserman, 20] K. SimonyanとA. Zisserman。 0.84
“Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014. arxiv preprint arxiv:1409.1556, 2014” very deep convolutional networks for large-scale image recognition”。 0.73
[21] K. He, X. Zhang, S. Ren, and J. [21]K.He,X.Zhang,S. Ren,J. 0.80
Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. the ieee conference on computer vision and pattern recognition, 2016 pp. ^ “deep residual learning for image recognition” を参照。 0.62
770– 778. [22] I. C. Duta, L. Liu, F. Zhu, and L. Shao, “Pyramidal convolution: Rethinking convolutional neural networks for visual recognition,” arXiv preprint arXiv:2006.11538, 2020. 770– 778. 22] I.C. Duta, L. Liu, F. Zhu, L. Shao, "Pyramidal convolution: Rethinking Convolutional Neural Network for Visual Recognition" arXiv preprint arXiv:2006.11538, 2020. 0.94
[23] Y. Zhang, J. [23] Y. Zhang, J. 0.94
Du, Z. Wang, J. Zhang, and Y. Tu, “Attention based fully convolutional network for speech emotion recognition,” in 2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Du, Z. Wang, J. Zhang, Y. Tu, “Attention based fully convolutional network for speech emotion recognition” in 2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)。 0.86
IEEE, 2018, pp. IEEE, 2018, pp。 0.82
1771–1775. 1771–1775. 0.71
[24] E. Guizzo, T. Weyde, and J. [24]E. Guizzo, T. Weyde, J. 0.83
B. Leveson, “Multi-time-scale convolution for emotion recognition from speech audio signals,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). b. leveson, “multi-time-scale convolution for emotion recognition from speech audio signals” in icassp 2020-2020 ieee international conference on acoustics, speech and signal processing (icassp) 0.86
IEEE, 2020, pp. IEEE, 2020, pp。 0.82
6489–6493. 6489–6493. 0.71
[25] Z. Ren, A. Baird, J. Han, Z. Zhang, and B. Schuller, “Generating and protecting against adversarial attacks for deep speechin ICASSP 2020-2020 based emotion recognition models,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) “[25] Z. Ren, A. Baird, J. Han, Z. Zhang, B. Schuller, “Generating and Protection against adversarial attacks for Deep Speechin ICASSP 2020-2020 based emotion recognition model” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)。 0.80
IEEE, 2020, pp. IEEE, 2020, pp。 0.82
7184–7188. 7184–7188. 0.71
[26] J. Gratch, R. Artstein, G. M. Lucas, G. Stratou, S. Scherer, A. Nazarian, R. Wood, J. Boberg, D. DeVault, S. Marsella, et al., “The distress analysis interview corpus of human and computer interviews.,” in LREC, 2014, pp. 26] j. gratch, r. artstein, g. m. lucas, g. stratou, s. scherer, a. nazarian, r. wood, j. boberg, d. devault, s. marsella, et al., "the distress analysis interview corpus of human and computer interviews." in lrec, 2014 pp. (英語)
訳抜け防止モード: [26 ] J. Gratch, R. Artstein, G. M. Lucas, G. Stratou, S. Scherer, A. Nazarian, R. Wood J. Boberg, D. DeVault, S. Marsella, et al 。 「人間とコンピュータのインタビューの悲惨な分析インタビューコーパス」 LREC, 2014 , pp。
0.91
3123–3128. 3123–3128. 0.71
[27] S. Watanabe, T. Hori, S. Karita, T. Hayashi, J. Nishitoba, Y. Unno, N. E. Y. Soplin, J. Heymann, M. Wiesner, N. Chen, et al., “Espnet: End-to-end speech processing toolkit,” arXiv preprint arXiv:1804.00015, 2018. S. Watanabe, T. Hori, S. Karita, T. Hayashi, J. Nishitoba, Y. Unno, N. E. Y. Soplin, J. Heymann, M. Wiesner, N. Chen, al., “Espnet: End-to-end speech Processing Toolkit” arXiv preprint arXiv:1804.00015, 2018 0.91
           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。