論文の概要: Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions
- arxiv url: http://arxiv.org/abs/2002.01323v1
- Date: Fri, 31 Jan 2020 03:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 06:11:30.161171
- Title: Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions
- Title(参考訳): 音声からの感情プリミティブの検出とカテゴリー感情の識別への応用
- Authors: Vasudha Kowtha, Vikramjit Mitra, Chris Bartels, Erik Marchi, Sue
Booker, William Caruso, Sachin Kajarekar, Devang Naik
- Abstract要約: 感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
- 参考スコア(独自算出の注目度): 16.886826928295203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion plays an essential role in human-to-human communication, enabling us
to convey feelings such as happiness, frustration, and sincerity. While modern
speech technologies rely heavily on speech recognition and natural language
understanding for speech content understanding, the investigation of vocal
expression is increasingly gaining attention. Key considerations for building
robust emotion models include characterizing and improving the extent to which
a model, given its training data distribution, is able to generalize to unseen
data conditions. This work investigated a long-shot-term memory (LSTM) network
and a time convolution - LSTM (TC-LSTM) to detect primitive emotion attributes
such as valence, arousal, and dominance, from speech. It was observed that
training with multiple datasets and using robust features improved the
concordance correlation coefficient (CCC) for valence, by 30\% with respect to
the baseline system. Additionally, this work investigated how emotion
primitives can be used to detect categorical emotions such as happiness,
disgust, contempt, anger, and surprise from neutral speech, and results
indicated that arousal, followed by dominance was a better detector of such
emotions.
- Abstract(参考訳): 感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
最近の音声技術は音声認識と自然言語理解を音声コンテンツ理解に重きを置いているが、音声表現の研究はますます注目されている。
ロバストな感情モデルを構築する上で重要な考慮事項は、トレーニングデータ分布を前提として、モデルを認識できないデータ条件に一般化できる範囲のキャラクタリゼーションと改善である。
本研究は,長期記憶(LSTM)ネットワークと時間畳み込み(LSTM)を用いて,有能性,覚醒性,支配性などの原始的感情特性を音声から検出する手法である。
複数のデータセットとロバストな特徴を用いたトレーニングは、ベースラインシステムに関して、原子価の一致相関係数(concordance correlation coefficient, ccc)を30\%向上させた。
さらに, 感情プリミティブが, 幸福感, 嫌悪感, 侮辱感情, 怒り, 驚きといったカテゴリー的感情を中性言語から検出するためにどのように用いられるかを検討した。
関連論文リスト
- ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - Exploiting Emotion-Semantic Correlations for Empathetic Response
Generation [18.284296904390143]
共感応答生成は、対話言語から話者の感情的感情を理解することによって共感応答を生成することを目的としている。
近年の手法では、コミュニケーション者の言語における感情的な言葉を捉え、それらを静的なベクトルとして構築し、ニュアンス化された感情を知覚する。
本研究では,感情・感情相関モデル(ESCM)を提案する。
論文 参考訳(メタデータ) (2024-02-27T11:50:05Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Learning Emotion Representations from Verbal and Nonverbal Communication [7.747924294389427]
本稿では,言語・非言語コミュニケーションから視覚的感情表現を抽出する最初の事前学習パラダイムであるEmotionCLIPを提案する。
EmotionCLIPは、感情誘導型コントラスト学習を用いて、主観的文脈エンコーディングと言語感情キューを通じて、非言語感情キューへの参加を誘導する。
EmotionCLIPは、感情理解におけるデータ不足の一般的な問題に対処し、関連する領域の進歩を促進する。
論文 参考訳(メタデータ) (2023-05-22T21:36:55Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Attention-based Region of Interest (ROI) Detection for Speech Emotion
Recognition [4.610756199751138]
本研究では,深部脳神経回路網における注意機構を用いて,人間の感情的音声/ビデオにおいてより感情的に有意な関心領域(ROI)を検出することを提案する。
6つの基本的な人間の感情を認識する多クラス分類タスクにおいて,提案した注目ネットワークと最先端のLSTMモデルの性能を比較した。
論文 参考訳(メタデータ) (2022-03-03T22:01:48Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。