論文の概要: Empirical Interpretation of the Relationship Between Speech Acoustic
Context and Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.17500v1
- Date: Fri, 30 Jun 2023 09:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:06:01.185409
- Title: Empirical Interpretation of the Relationship Between Speech Acoustic
Context and Emotion Recognition
- Title(参考訳): 音声の音響的文脈と感情認識の関係に関する経験的解釈
- Authors: Anna Ollerenshaw, Md Asif Jalal, Rosanna Milner, Thomas Hain
- Abstract要約: 音声感情認識(SER)は、感情的な知性を得、発話の文脈的意味を理解するために不可欠である。
実際に、音声の感情は、所定の時間の間、音響セグメント上で単一のラベルとして扱われる。
本研究は,SERにおける音声コンテキストと音声境界が局所的マーカーに与える影響について,注意に基づくアプローチを用いて検討する。
- 参考スコア(独自算出の注目度): 28.114873457383354
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech emotion recognition (SER) is vital for obtaining emotional
intelligence and understanding the contextual meaning of speech. Variations of
consonant-vowel (CV) phonemic boundaries can enrich acoustic context with
linguistic cues, which impacts SER. In practice, speech emotions are treated as
single labels over an acoustic segment for a given time duration. However,
phone boundaries within speech are not discrete events, therefore the perceived
emotion state should also be distributed over potentially continuous
time-windows.
This research explores the implication of acoustic context and phone
boundaries on local markers for SER using an attention-based approach. The
benefits of using a distributed approach to speech emotion understanding are
supported by the results of cross-corpora analysis experiments. Experiments
where phones and words are mapped to the attention vectors along with the
fundamental frequency to observe the overlapping distributions and thereby the
relationship between acoustic context and emotion. This work aims to bridge
psycholinguistic theory research with computational modelling for SER.
- Abstract(参考訳): 音声感情認識(SER)は、感情的な知性を得、発話の文脈的意味を理解するために不可欠である。
consonant-vowel(cv)の音韻境界の変化は、言語的手がかりによって音響的文脈を豊かにする。
実際には、音声感情は与えられた時間の間、音響セグメント上の単一のラベルとして扱われる。
しかし、音声中の電話の境界は離散的なイベントではないため、知覚された感情状態は潜在的に連続的なタイムウィンドウ上にも分散されるべきである。
本研究は,SERにおける音声コンテキストと音声境界が局所的マーカーに与える影響を注意に基づくアプローチを用いて検討する。
音声感情理解に分散アプローチを用いることの利点は、クロスコーパス分析実験の結果によって支持される。
電話と単語が注意ベクトルにマッピングされる実験は、重なり合う分布を観察するための基本周波数とともに、音響的文脈と感情の関係を示す。
本研究の目的は、SERの計算モデルによる心理言語学研究を橋渡しすることである。
関連論文リスト
- Exploiting Emotion-Semantic Correlations for Empathetic Response
Generation [18.284296904390143]
共感応答生成は、対話言語から話者の感情的感情を理解することによって共感応答を生成することを目的としている。
近年の手法では、コミュニケーション者の言語における感情的な言葉を捉え、それらを静的なベクトルとして構築し、ニュアンス化された感情を知覚する。
本研究では,感情・感情相関モデル(ESCM)を提案する。
論文 参考訳(メタデータ) (2024-02-27T11:50:05Z) - Revealing Emotional Clusters in Speaker Embeddings: A Contrastive
Learning Strategy for Speech Emotion Recognition [27.098672790099304]
感情情報は話者埋め込みに間接的に埋め込まれていると推定され、その未利用に繋がった。
本研究は,話者内クラスタの形で,感情と最先端の話者埋め込みの直接的かつ有用な関係を明らかにする。
音声の感情認識のための感情非ラベルデータに適用する新しいコントラスト事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T20:31:53Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Detecting Emotion Carriers by Combining Acoustic and Lexical
Representations [7.225325393598648]
ナレーターの感情状態を最もよく説明するセグメントとして定義される感情キャリア(EC)に注目した。
ECは、自然言語理解を改善するために、ユーザ状態のよりリッチな表現を提供することができます。
音声話中の心電図の検出には,単語ベースの音響およびテキストの埋め込みに加えて,早期・後期の融合技術を利用する。
論文 参考訳(メタデータ) (2021-12-13T12:39:53Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。