論文の概要: Attention-based Region of Interest (ROI) Detection for Speech Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2203.03428v1
- Date: Thu, 3 Mar 2022 22:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-12 05:28:21.364413
- Title: Attention-based Region of Interest (ROI) Detection for Speech Emotion
Recognition
- Title(参考訳): 感情認識のための関心領域(ROI)の注意に基づく検出
- Authors: Jay Desai, Houwei Cao, Ravi Shah
- Abstract要約: 本研究では,深部脳神経回路網における注意機構を用いて,人間の感情的音声/ビデオにおいてより感情的に有意な関心領域(ROI)を検出することを提案する。
6つの基本的な人間の感情を認識する多クラス分類タスクにおいて,提案した注目ネットワークと最先端のLSTMモデルの性能を比較した。
- 参考スコア(独自算出の注目度): 4.610756199751138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic emotion recognition for real-life appli-cations is a challenging
task. Human emotion expressions aresubtle, and can be conveyed by a combination
of several emo-tions. In most existing emotion recognition studies, each
audioutterance/video clip is labelled/classified in its entirety.
However,utterance/clip-level labelling and classification can be too coarseto
capture the subtle intra-utterance/clip temporal dynamics. Forexample, an
utterance/video clip usually contains only a fewemotion-salient regions and
many emotionless regions. In thisstudy, we propose to use attention mechanism
in deep recurrentneural networks to detection the Regions-of-Interest (ROI)
thatare more emotionally salient in human emotional speech/video,and further
estimate the temporal emotion dynamics by aggre-gating those emotionally
salient regions-of-interest. We comparethe ROI from audio and video and analyse
them. We comparethe performance of the proposed attention networks with
thestate-of-the-art LSTM models on multi-class classification task
ofrecognizing six basic human emotions, and the proposed attentionmodels
exhibit significantly better performance. Furthermore, theattention weight
distribution can be used to interpret how anutterance can be expressed as a
mixture of possible emotions.
- Abstract(参考訳): 実生活におけるアプリケーションの自動感情認識は難しい課題である。
ヒトの感情表現は副次的であり、複数の感情表現の組み合わせによって伝達される。
既存の感情認識研究では、各音声発話/ビデオクリップはラベル付け/分類されている。
しかし、発話/クリップレベルのラベリングと分類は、微妙な発話/クリップ時間ダイナミクスを捉えるには大きすぎる。
Forexampleでは、発話/ビデオクリップは、通常、感情のない領域と、感情のない領域のみを含む。
本稿では, 深部脳神経回路網における注意機構を用いて, 人間の情緒的音声/ビデオにおいてより感情的に有意な関心領域(ROI)の検出を行い, さらに, 感情的に有意な関心領域を集約することで, 時間的情動動態を推定することを提案する。
音声とビデオのROIを比較して分析する。
本研究では,6つの基本的感情を認識する多クラス分類タスクにおいて,提案した注目ネットワークと最先端LSTMモデルの性能を比較し,提案した注目モデルの性能は著しく向上した。
さらに、意味重み分布を用いて、発話が感情の混合としてどのように表現できるかを解釈することができる。
関連論文リスト
- ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。
提案手法とCAER-Sデータセットの最先端手法を比較した。
論文 参考訳(メタデータ) (2021-11-03T15:08:55Z) - Emotion Recognition under Consideration of the Emotion Component Process
Model [9.595357496779394]
我々はScherer (2005) による感情成分プロセスモデル (CPM) を用いて感情コミュニケーションを説明する。
CPMは、感情は、出来事、すなわち主観的感情、認知的評価、表現、生理的身体反応、動機的行動傾向に対する様々なサブコンポーネントの協調過程であると述べている。
Twitter上での感情は、主に出来事の説明や主観的な感情の報告によって表現されているのに対し、文献では、著者はキャラクターが何をしているかを記述し、解釈を読者に任せることを好む。
論文 参考訳(メタデータ) (2021-07-27T15:53:25Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。