論文の概要: x-vectors meet emotions: A study on dependencies between emotion and
speaker recognition
- arxiv url: http://arxiv.org/abs/2002.05039v1
- Date: Wed, 12 Feb 2020 15:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 19:48:21.615804
- Title: x-vectors meet emotions: A study on dependencies between emotion and
speaker recognition
- Title(参考訳): x-vectors meet emotions: 感情と話者認識の依存性に関する研究
- Authors: Raghavendra Pappagari, Tianzi Wang, Jesus Villalba, Nanxin Chen, Najim
Dehak
- Abstract要約: 話者認識のために学習した知識は、伝達学習を通じて感情認識に再利用可能であることを示す。
感情認識では,単純な線形モデルを用いることで,事前学習モデルから抽出した特徴の良好な性能が得られることを示す。
本稿では,感情が話者の検証に及ぼす影響について述べる。
- 参考スコア(独自算出の注目度): 38.181055783134006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore the dependencies between speaker recognition and
emotion recognition. We first show that knowledge learned for speaker
recognition can be reused for emotion recognition through transfer learning.
Then, we show the effect of emotion on speaker recognition. For emotion
recognition, we show that using a simple linear model is enough to obtain good
performance on the features extracted from pre-trained models such as the
x-vector model. Then, we improve emotion recognition performance by fine-tuning
for emotion classification. We evaluated our experiments on three different
types of datasets: IEMOCAP, MSP-Podcast, and Crema-D. By fine-tuning, we
obtained 30.40%, 7.99%, and 8.61% absolute improvement on IEMOCAP, MSP-Podcast,
and Crema-D respectively over baseline model with no pre-training. Finally, we
present results on the effect of emotion on speaker verification. We observed
that speaker verification performance is prone to changes in test speaker
emotions. We found that trials with angry utterances performed worst in all
three datasets. We hope our analysis will initiate a new line of research in
the speaker recognition community.
- Abstract(参考訳): 本研究では,話者認識と感情認識の関係について検討する。
まず,話者認識のための知識を伝達学習を通じて感情認識に再利用できることを示す。
次に,感情が話者認識に与える影響を示す。
感情認識では,xベクトルモデルなどの事前学習モデルから抽出した特徴に対して,単純な線形モデルを用いることで良好な性能が得られることを示す。
そして、感情分類の微調整により、感情認識性能を向上させる。
IEMOCAP, MSP-Podcast, Crema-Dの3種類のデータセットについて実験を行った。
プレトレーニングなしのベースラインモデルでは,IEMOCAP,MPP-Podcast,Crema-Dの30.40%,7.99%,および8.61%の絶対改善が得られた。
最後に,感情が話者の検証に及ぼす影響について述べる。
話者照合性能はテスト話者の感情の変化に起因していることがわかった。
怒った発話による試験は、3つのデータセットで最悪の結果となった。
われわれの分析が、話者認識コミュニティにおける新しい研究のラインを創り出すことを期待している。
関連論文リスト
- Prompting Audios Using Acoustic Properties For Emotion Representation [36.275219004598874]
感情を表現するために自然言語記述(あるいはプロンプト)の使用を提案する。
我々は、ピッチ、強度、発話速度、調音率などの感情に相関する音響特性を用いて、自動的にプロンプトを生成する。
その結果,様々なPrecision@K測定値において,音響的プロンプトがモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-03T13:06:58Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Multi-Classifier Interactive Learning for Ambiguous Speech Emotion
Recognition [9.856709988128515]
曖昧な発話感情に対処するために,MCIL (Multi-classifier Interactive Learning) 法を提案する。
MCILは、曖昧な感情の無矛盾な認識を持つ複数の個人を模倣し、新しい曖昧なラベルを構築する。
実験では、MCILは各分類器のパフォーマンスを向上させるだけでなく、認識の一貫性を中程度から実質的に向上させる。
論文 参考訳(メタデータ) (2020-12-10T02:58:34Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z) - Meta Transfer Learning for Emotion Recognition [42.61707533351803]
本研究では、ある視覚的/聴覚的感情領域から学習した感情知識を、別の視覚的/聴覚的感情領域に伝達できるPathNetに基づく伝達学習手法を提案する。
提案システムは感情認識の性能を向上し,最近提案された微調整/事前学習モデルに基づく伝達学習手法よりも性能が大幅に向上する。
論文 参考訳(メタデータ) (2020-06-23T00:25:28Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。