論文の概要: Describing emotions with acoustic property prompts for speech emotion
recognition
- arxiv url: http://arxiv.org/abs/2211.07737v1
- Date: Mon, 14 Nov 2022 20:29:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 16:03:19.593857
- Title: Describing emotions with acoustic property prompts for speech emotion
recognition
- Title(参考訳): 音声感情認識のための音響特性プロンプトによる感情表現
- Authors: Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha
Raj, Rita Singh
- Abstract要約: 本研究では、ピッチ、ラウドネス、発声率、調音率などの音響特性を演算することで、所定の音声に対する記述を自動生成する手法を提案する。
これらの音声テキストペアを用いてニューラルネットワークモデルをトレーニングし、さらに1つのデータセットを用いてモデルを評価する。
モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。
- 参考スコア(独自算出の注目度): 30.990720176317463
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Emotions lie on a broad continuum and treating emotions as a discrete number
of classes limits the ability of a model to capture the nuances in the
continuum. The challenge is how to describe the nuances of emotions and how to
enable a model to learn the descriptions. In this work, we devise a method to
automatically create a description (or prompt) for a given audio by computing
acoustic properties, such as pitch, loudness, speech rate, and articulation
rate. We pair a prompt with its corresponding audio using 5 different emotion
datasets. We trained a neural network model using these audio-text pairs. Then,
we evaluate the model using one more dataset. We investigate how the model can
learn to associate the audio with the descriptions, resulting in performance
improvement of Speech Emotion Recognition and Speech Audio Retrieval. We expect
our findings to motivate research describing the broad continuum of emotion
- Abstract(参考訳): 感情は広い連続体の上にあり、感情を離散的なクラス数として扱うことは、連続体のニュアンスを捉えるモデルの能力を制限する。
課題は、感情のニュアンスを説明する方法と、モデルが記述を学習できるようにする方法である。
本研究では,音高,ラウドネス,発声率,調音率などの音響特性を演算することで,所定の音声に対する記述(あるいはプロンプト)を自動的に生成する手法を提案する。
5種類の感情データセットを用いてプロンプトと対応するオーディオを組み合わせる。
これらの音声テキストペアを用いてニューラルネットワークモデルを訓練した。
そして、さらに1つのデータセットを用いてモデルを評価する。
モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。
我々の研究成果は、感情の広範連続性に関する研究を動機づけるものと期待している。
関連論文リスト
- EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation [3.696171835644556]
EmotionCapsは、約12万の音声クリップと、音声景観の感情認識情報に富んだ合成記述を組み合わせた音声キャプションデータセットである。
本研究は, キャプションモデルの開発と評価のための新しい方向の提案と, キャプティングへの現在のアプローチに挑戦するものである。
論文 参考訳(メタデータ) (2024-10-15T19:57:37Z) - Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare [0.0]
人間の感情と感情状態を音声から識別するプロセスは、音声感情認識(SER)として知られている。
私の研究は、畳み込みニューラルネットワーク(CNN)を使って、音声録音と感情を区別し、異なる感情の範囲に応じてラベル付けすることを目指しています。
私は、機械学習手法を用いて、供給された音声ファイルから感情を識別する機械学習モデルを開発した。
論文 参考訳(メタデータ) (2024-06-15T21:33:03Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Prompting Audios Using Acoustic Properties For Emotion Representation [36.275219004598874]
感情を表現するために自然言語記述(あるいはプロンプト)の使用を提案する。
我々は、ピッチ、強度、発話速度、調音率などの感情に相関する音響特性を用いて、自動的にプロンプトを生成する。
その結果,様々なPrecision@K測定値において,音響的プロンプトがモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-03T13:06:58Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。