論文の概要: Beyond Isolated Utterances: Conversational Emotion Recognition
- arxiv url: http://arxiv.org/abs/2109.06112v1
- Date: Mon, 13 Sep 2021 16:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:26:24.223015
- Title: Beyond Isolated Utterances: Conversational Emotion Recognition
- Title(参考訳): 孤立した発話を超えて:会話的感情認識
- Authors: Raghavendra Pappagari, Piotr \.Zelasko, Jes\'us Villalba, Laureano
Moro-Velazquez, Najim Dehak
- Abstract要約: 音声の感情認識は、発話の記録から話者の感情状態を認識するタスクである。
本稿では,対話型感情認識(CER)をシーケンスラベリングタスクとして扱うことで,対話型感情認識(CER)にいくつかのアプローチを提案する。
CERのトランスフォーマーアーキテクチャについて検討し,ResNet-34およびBiLSTMアーキテクチャと比較した。
- 参考スコア(独自算出の注目度): 33.52961239281893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition is the task of recognizing the speaker's emotional
state given a recording of their utterance. While most of the current
approaches focus on inferring emotion from isolated utterances, we argue that
this is not sufficient to achieve conversational emotion recognition (CER)
which deals with recognizing emotions in conversations. In this work, we
propose several approaches for CER by treating it as a sequence labeling task.
We investigated transformer architecture for CER and, compared it with
ResNet-34 and BiLSTM architectures in both contextual and context-less
scenarios using IEMOCAP corpus. Based on the inner workings of the
self-attention mechanism, we proposed DiverseCatAugment (DCA), an augmentation
scheme, which improved the transformer model performance by an absolute 3.3%
micro-f1 on conversations and 3.6% on isolated utterances. We further enhanced
the performance by introducing an interlocutor-aware transformer model where we
learn a dictionary of interlocutor index embeddings to exploit diarized
conversations.
- Abstract(参考訳): 音声の感情認識は、発話の記録から話者の感情状態を認識するタスクである。
現在のアプローチのほとんどは、孤立した発話からの感情の推測に重点を置いているが、会話中の感情の認識を扱う会話感情認識(CER)を実現するには不十分である。
本研究では,CERをシーケンスラベリングタスクとして扱うことで,CERに対するいくつかのアプローチを提案する。
我々はCERのトランスフォーマーアーキテクチャについて検討し、IEMOCAPコーパスを用いてコンテキストレスシナリオとコンテキストレスシナリオの両方でResNet-34およびBiLSTMアーキテクチャと比較した。
自己注意機構の内部構造に基づいて,会話における絶対3.3%のマイクロf1と孤立発話における3.6%の変換器モデルの性能向上を図ったDiverseCatAugment (DCA) を提案する。
我々は,ダイアリゼートされた会話を活用すべく,インターロカクタインデックス埋め込みの辞書を学習するインターロカクタアウェアトランスフォーマーモデルを導入することにより,その性能をさらに向上させた。
関連論文リスト
- ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Context-Dependent Embedding Utterance Representations for Emotion
Recognition in Conversations [1.8126187844654875]
我々は会話の文脈を利用した会話における感情認識にアプローチする。
それぞれの発話の文脈依存的な埋め込み表現を提案する。
提案手法の有効性は,オープンドメインのDailyDialogデータセットとタスク指向のEmoWOZデータセットで検証される。
論文 参考訳(メタデータ) (2023-04-17T12:37:57Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Discovering Emotion and Reasoning its Flip in Multi-Party Conversations
using Masked Memory Network and Transformer [16.224961520924115]
感情フリップ推論(EFR)の新たな課題について紹介する。
EFRは、ある時点で感情状態が反転した過去の発話を特定することを目的としている。
後者のタスクに対して,前者およびトランスフォーマーベースのネットワークに対処するためのマスクメモリネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-23T07:42:09Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Multi-Task Learning with Auxiliary Speaker Identification for
Conversational Emotion Recognition [32.439818455554885]
話者識別(SI)を補助課題として活用し,会話における発話表現を強化する。
この方法により、追加のSIコーパスから話者認識型文脈表現を学習できる。
2つのベンチマークデータセットの実験では、提案されたアーキテクチャがCERに非常に有効であることが示されている。
論文 参考訳(メタデータ) (2020-03-03T12:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。