論文の概要: Multi-Classifier Interactive Learning for Ambiguous Speech Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2012.05429v2
- Date: Sat, 12 Dec 2020 14:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:15:26.252915
- Title: Multi-Classifier Interactive Learning for Ambiguous Speech Emotion
Recognition
- Title(参考訳): 曖昧な音声感情認識のための多クラス対話型学習
- Authors: Ying Zhou, Xuefeng Liang, Yu Gu, Yifei Yin, Longshan Yao
- Abstract要約: 曖昧な発話感情に対処するために,MCIL (Multi-classifier Interactive Learning) 法を提案する。
MCILは、曖昧な感情の無矛盾な認識を持つ複数の個人を模倣し、新しい曖昧なラベルを構築する。
実験では、MCILは各分類器のパフォーマンスを向上させるだけでなく、認識の一貫性を中程度から実質的に向上させる。
- 参考スコア(独自算出の注目度): 9.856709988128515
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, speech emotion recognition technology is of great
significance in industrial applications such as call centers, social robots and
health care. The combination of speech recognition and speech emotion
recognition can improve the feedback efficiency and the quality of service.
Thus, the speech emotion recognition has been attracted much attention in both
industry and academic. Since emotions existing in an entire utterance may have
varied probabilities, speech emotion is likely to be ambiguous, which poses
great challenges to recognition tasks. However, previous studies commonly
assigned a single-label or multi-label to each utterance in certain. Therefore,
their algorithms result in low accuracies because of the inappropriate
representation. Inspired by the optimally interacting theory, we address the
ambiguous speech emotions by proposing a novel multi-classifier interactive
learning (MCIL) method. In MCIL, multiple different classifiers first mimic
several individuals, who have inconsistent cognitions of ambiguous emotions,
and construct new ambiguous labels (the emotion probability distribution).
Then, they are retrained with the new labels to interact with their cognitions.
This procedure enables each classifier to learn better representations of
ambiguous data from others, and further improves the recognition ability. The
experiments on three benchmark corpora (MAS, IEMOCAP, and FAU-AIBO) demonstrate
that MCIL does not only improve each classifier's performance, but also raises
their recognition consistency from moderate to substantial.
- Abstract(参考訳): 近年,音声感情認識技術は,コールセンターや社会ロボット,医療といった産業応用において非常に重要である。
音声認識と音声感情認識の組み合わせは、フィードバック効率とサービス品質を向上させることができる。
このように、音声感情認識は、産業と学術の両方で注目を集めている。
発話全体に存在する感情は様々な確率を持つため、音声の感情は曖昧になり、タスク認識に大きな課題が生じる可能性がある。
しかし、以前の研究では、特定の発話ごとに1つのラベルまたは複数ラベルを割り当てることが一般的であった。
したがって、それらのアルゴリズムは不適切な表現のために精度が低い。
最適相互作用理論に着想を得て,新しい多クラス対話型学習法(MCIL)を提案することで,あいまいな音声感情に対処する。
MCILでは、複数の異なる分類器がまず複数の個人を模倣し、不明瞭な感情の無矛盾な認識を持ち、新しい曖昧なラベル(感情の確率分布)を構築する。
すると、彼らは新しいラベルで再訓練され、認識と相互作用する。
この手順により、各分類器は、他人からあいまいなデータのより良い表現を学習でき、さらに認識能力を向上させることができる。
3つのベンチマークコーパス(MAS, IEMOCAP, FAU-AIBO)の実験は、MCILが各分類器の性能を向上するだけでなく、認識一貫性を中程度から実質的に向上させることを示した。
関連論文リスト
- The Emotion is Not One-hot Encoding: Learning with Grayscale Label for
Emotion Recognition in Conversation [0.0]
会話における感情認識(ERC)では、過去の文脈を考慮し、現在の発話の感情を予測する。
グレースケールラベルを構築するためのいくつかの手法を導入し、各手法が感情認識性能を向上させることを確認する。
論文 参考訳(メタデータ) (2022-06-15T08:14:42Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Attention-based Region of Interest (ROI) Detection for Speech Emotion
Recognition [4.610756199751138]
本研究では,深部脳神経回路網における注意機構を用いて,人間の感情的音声/ビデオにおいてより感情的に有意な関心領域(ROI)を検出することを提案する。
6つの基本的な人間の感情を認識する多クラス分類タスクにおいて,提案した注目ネットワークと最先端のLSTMモデルの性能を比較した。
論文 参考訳(メタデータ) (2022-03-03T22:01:48Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - SpanEmo: Casting Multi-label Emotion Classification as Span-prediction [15.41237087996244]
マルチラベル感情分類をスパンプレディションとした新しいモデル「SpanEmo」を提案する。
入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。
SemEval2018マルチラベル感情データを3つの言語セットで実験した結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-25T12:11:04Z) - Facial Emotion Recognition with Noisy Multi-task Annotations [88.42023952684052]
ノイズの多いマルチタスクアノテーションを用いた顔の感情認識の新しい問題を提案する。
この新たな問題に対して,共同分布マッチングの観点からの定式化を提案する。
我々は,感情予測と共同分布学習を可能にする新しい手法を利用する。
論文 参考訳(メタデータ) (2020-10-19T20:39:37Z) - COSMIC: COmmonSense knowledge for eMotion Identification in
Conversations [95.71018134363976]
我々は,心的状態,出来事,因果関係など,常識の異なる要素を取り入れた新しい枠組みであるCOSMICを提案する。
我々は,COSMICが4つのベンチマークの会話データセット上で,感情認識のための最新の結果を実現することを示す。
論文 参考訳(メタデータ) (2020-10-06T15:09:38Z) - x-vectors meet emotions: A study on dependencies between emotion and
speaker recognition [38.181055783134006]
話者認識のために学習した知識は、伝達学習を通じて感情認識に再利用可能であることを示す。
感情認識では,単純な線形モデルを用いることで,事前学習モデルから抽出した特徴の良好な性能が得られることを示す。
本稿では,感情が話者の検証に及ぼす影響について述べる。
論文 参考訳(メタデータ) (2020-02-12T15:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。