Fugu-MT 論文翻訳(概要): Construction and Evaluation of Mandarin Multimodal Emotional Speech Database

論文の概要: Construction and Evaluation of Mandarin Multimodal Emotional Speech Database

arxiv url: http://arxiv.org/abs/2401.07336v1
Date: Sun, 14 Jan 2024 17:56:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 18:43:23.099320
Title: Construction and Evaluation of Mandarin Multimodal Emotional Speech Database
Title（参考訳）: マンダリン多モーダル感情音声データベースの構築と評価
Authors: Zhu Ting, Li Liangqi, Duan Shufei, Zhang Xueying, Xiao Zhongzhe, Jia Hairng, Liang Huizhi
Abstract要約: 次元アノテーションの妥当性は次元アノテーションデータの統計的解析によって検証される。 7つの感情の認識率は、音響データだけで約82%である。データベースは高品質であり、音声分析研究の重要な情報源として利用することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A multi-modal emotional speech Mandarin database including articulatory kinematics, acoustics, glottal and facial micro-expressions is designed and established, which is described in detail from the aspects of corpus design, subject selection, recording details and data processing. Where signals are labeled with discrete emotion labels (neutral, happy, pleasant, indifferent, angry, sad, grief) and dimensional emotion labels (pleasure, arousal, dominance). In this paper, the validity of dimension annotation is verified by statistical analysis of dimension annotation data. The SCL-90 scale data of annotators are verified and combined with PAD annotation data for analysis, so as to explore the internal relationship between the outlier phenomenon in annotation and the psychological state of annotators. In order to verify the speech quality and emotion discrimination of the database, this paper uses 3 basic models of SVM, CNN and DNN to calculate the recognition rate of these seven emotions. The results show that the average recognition rate of seven emotions is about 82% when using acoustic data alone. When using glottal data alone, the average recognition rate is about 72%. Using kinematics data alone, the average recognition rate also reaches 55.7%. Therefore, the database is of high quality and can be used as an important source for speech analysis research, especially for the task of multimodal emotional speech analysis.
Abstract（参考訳）: コーパス設計、主題選択、記録詳細及びデータ処理の側面から詳細に記述した、調音運動、音響、声門および顔の微小表現を含むマルチモーダル感情音声マンダリンデータベースを設計、確立する。信号は離散的な感情ラベル(中性、幸福、快楽、無関心、怒り、悲しみ、悲しみ)と次元的な感情ラベル(快楽、覚醒、支配)でラベル付けされる。本稿では,次元アノテーションデータの統計的解析により,次元アノテーションの有効性を検証する。注釈者のscl-90スケールデータを検証し、解析用パッドアノテーションデータと組み合わせ、アノテーションの異常現象と注釈者の心理状態との関係を探究する。本稿では,データベースの音声品質と感情識別の検証のために,svm,cnn,dnnの3つの基本モデルを用いて,これら7つの感情の認識率を計算する。その結果,音響データのみを用いた場合の7感情の平均認識率は約82%であった。声門データのみを使用する場合、平均認識率は約72%である。 kinematicsのデータだけで、平均認識率は55.7%に達する。したがって、データベースは高品質であり、特にマルチモーダル感情音声分析のタスクにおいて、音声分析研究の重要な情報源として使用できる。

関連論文リスト

Speech Emotion Detection Based on MFCC and CNN-LSTM Architecture [0.0]
本稿では,最初の音声入力をウェーブプロットとスペクトルに処理して分析し,特徴抽出の対象としてMFCCを含む複数の特徴に集中する。このアーキテクチャは、テストセットに対して総合的に61.07%の精度を達成し、怒りと中立性の検出はそれぞれ75.31%と71.70%のパフォーマンスに達した。
論文参考訳（メタデータ） (2025-01-18T06:15:54Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
EMOVOME Database: Advancing Emotion Recognition in Speech Beyond Staged Scenarios [2.1455880234227624]
私たちはEMOVOME(Emotional Voice Messages)データベースをリリースしました。話者非依存型音声感情認識(SER)モデルを,標準的な音響特徴セットとトランスフォーマーモデルを用いて評価した。 EMOVOMEの結果はアノテータラベルによって変化し、専門家と非専門家のアノテーションを組み合わせる際に、より良い結果と公平性を示す。
論文参考訳（メタデータ） (2024-03-04T16:13:39Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
Design, construction and evaluation of emotional multimodal pathological speech database [8.774681418339155]
マルチパースペクティブ情報を含む中国初のマルチモーダル感情病的音声データベースを構築した。全感情音声は,WeChatのミニプログラムにより,インテリジェンス,タイプ,離散次元感情にラベル付けされた。音声と声門データを用いた自動認識では, 平均精度78%, 音声の60%, コントロール51%, 声門データ38%で, 感情表現への影響が示唆された。
論文参考訳（メタデータ） (2023-12-14T14:43:31Z)
SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文参考訳（メタデータ） (2023-11-24T13:47:25Z)
EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels [6.2375553155844266]
Emotive Narrative Storytelling (EMNS) コーパスは、会話の感情的品質を高めるために作られたユニークな音声データセットである。女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。 8つの行動的感情状態を含み、表現力レベルと単語強調ラベルによる自然言語記述とともに0.68%のばらつきで均等に分布している。
論文参考訳（メタデータ） (2023-05-22T15:32:32Z)
Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。この戦略は、文学で使われている最先端の手法と比較される。 EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文参考訳（メタデータ） (2022-08-19T11:29:03Z)
BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis [9.95713767110021]
Body-Expression-Audio-Textデータセットには、76時間、高品質、マルチモーダルなデータがあり、8つの異なる感情と4つの異なる言語で話す30人の話者から取得されている。 BEATは人間のジェスチャーを調べるための最大のモーションキャプチャーデータセットである。
論文参考訳（メタデータ） (2022-03-10T11:19:52Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文参考訳（メタデータ） (2021-06-17T08:34:21Z)
Affect2MM: Affective Analysis of Multimedia Content Using Emotion Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文参考訳（メタデータ） (2021-03-11T09:07:25Z)
Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文参考訳（メタデータ） (2020-08-31T17:44:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。