論文の概要: Multi-Modal Emotion Detection with Transfer Learning
- arxiv url: http://arxiv.org/abs/2011.07065v1
- Date: Fri, 13 Nov 2020 18:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 23:44:56.429142
- Title: Multi-Modal Emotion Detection with Transfer Learning
- Title(参考訳): トランスファー学習によるマルチモーダル感情検出
- Authors: Amith Ananthram, Kailash Karthik Saravanakumar, Jessica Huynh, and
Homayoon Beigi
- Abstract要約: 音声における感情検出は、単語間の複雑な相互依存と、それらが話される方法によって難しい課題である。
本稿では、まず音声とテキストの関連タスクから学習を伝達し、堅牢なニューラル埋め込みを生成するマルチモーダルアプローチを提案する。
我々は、TDNN単独、各層からの音声埋め込み、テキスト埋め込み単独、および各組み合わせの予測能力を評価する。
- 参考スコア(独自算出の注目度): 0.7629717457706324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated emotion detection in speech is a challenging task due to the
complex interdependence between words and the manner in which they are spoken.
It is made more difficult by the available datasets; their small size and
incompatible labeling idiosyncrasies make it hard to build generalizable
emotion detection systems. To address these two challenges, we present a
multi-modal approach that first transfers learning from related tasks in speech
and text to produce robust neural embeddings and then uses these embeddings to
train a pLDA classifier that is able to adapt to previously unseen emotions and
domains. We begin by training a multilayer TDNN on the task of speaker
identification with the VoxCeleb corpora and then fine-tune it on the task of
emotion identification with the Crema-D corpus. Using this network, we extract
speech embeddings for Crema-D from each of its layers, generate and concatenate
text embeddings for the accompanying transcripts using a fine-tuned BERT model
and then train an LDA - pLDA classifier on the resulting dense representations.
We exhaustively evaluate the predictive power of every component: the TDNN
alone, speech embeddings from each of its layers alone, text embeddings alone
and every combination thereof. Our best variant, trained on only VoxCeleb and
Crema-D and evaluated on IEMOCAP, achieves an EER of 38.05%. Including a
portion of IEMOCAP during training produces a 5-fold averaged EER of 25.72%
(For comparison, 44.71% of the gold-label annotations include at least one
annotator who disagrees).
- Abstract(参考訳): 音声における感情の自動検出は、単語間の複雑な相互依存とそれらが話される方法によって難しい課題である。
そのサイズが小さく、互換性のないラベル付けのイディオ同期により、一般化可能な感情検出システムの構築が困難になる。
これら2つの課題に対処するために、まず、音声とテキストの関連タスクから学習を伝達して堅牢なニューラル埋め込みを生成するマルチモーダルアプローチを提案し、その後、これらの埋め込みを使用して、これまで目に見えない感情やドメインに適応できるpLDA分類器を訓練する。
まず,VoxCelebコーパスを用いた話者識別タスクで多層TDNNを訓練し,Crema-Dコーパスによる感情識別タスクで微調整する。
このネットワークを用いて、各層からCrema-Dの音声埋め込みを抽出し、細調整されたBERTモデルを用いてテキスト埋め込みを生成し、その結果の濃密表現に基づいてLDA - pLDA分類器を訓練する。
我々は,各コンポーネントの予測能力,tdnn単独,各レイヤからの音声埋め込み,テキスト埋め込み,およびそれらの組合せを徹底的に評価する。
我々の最良の変種はVoxCelebとCrema-Dのみで訓練され、IEMOCAPで評価され、EERは38.05%に達する。
トレーニング中にIEMOCAPの一部を含むと、平均5倍のEERは25.72%になる(対照的に、ゴールドラベルのアノテーションの44.71%には少なくとも1つのアノテーションが含まれている)。
関連論文リスト
- Improving Speech-based Emotion Recognition with Contextual Utterance Analysis and LLMs [2.8728982844941178]
音声感情認識(SER)は、音声言語から感情状態を特定することに焦点を当てている。
データ信頼性を確保するために、まず利用可能なすべての書き起こしを改良する新しいアプローチを提案する。
次に、各会話をより小さな対話に分割し、これらの対話を文脈として使用し、対話内のターゲット発話の感情を予測する。
論文 参考訳(メタデータ) (2024-10-27T04:23:34Z) - MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis [70.06396781553191]
MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。
Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - VISTANet: VIsual Spoken Textual Additive Net for Interpretable Multimodal Emotion Recognition [21.247650660908484]
本稿では、VISTANet(Visual Textual Additive Net)というマルチモーダル感情認識システムを提案する。
VISTANetは、早期と後期の融合のハイブリッドを用いて、画像、音声、テキストのモダリティから情報を融合する。
KAAP技術は、特定の感情のクラスを予測するために、各モダリティとそれに対応する特徴の寄与を計算する。
論文 参考訳(メタデータ) (2022-08-24T11:35:51Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。