論文の概要: Design, construction and evaluation of emotional multimodal pathological
speech database
- arxiv url: http://arxiv.org/abs/2312.08998v1
- Date: Thu, 14 Dec 2023 14:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:37:13.509624
- Title: Design, construction and evaluation of emotional multimodal pathological
speech database
- Title(参考訳): 感情的マルチモーダル病理学的音声データベースの設計・構築・評価
- Authors: Ting Zhu, Shufei Duan, Huizhi Liang, Wei Zhang
- Abstract要約: マルチパースペクティブ情報を含む中国初のマルチモーダル感情病的音声データベースを構築した。
全感情音声は,WeChatのミニプログラムにより,インテリジェンス,タイプ,離散次元感情にラベル付けされた。
音声と声門データを用いた自動認識では, 平均精度78%, 音声の60%, コントロール51%, 声門データ38%で, 感情表現への影響が示唆された。
- 参考スコア(独自算出の注目度): 8.774681418339155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of an available emotion pathology database is one of the key
obstacles in studying the emotion expression status of patients with
dysarthria. The first Chinese multimodal emotional pathological speech database
containing multi-perspective information is constructed in this paper. It
includes 29 controls and 39 patients with different degrees of motor
dysarthria, expressing happy, sad, angry and neutral emotions. All emotional
speech was labeled for intelligibility, types and discrete dimensional emotions
by developed WeChat mini-program. The subjective analysis justifies from
emotion discrimination accuracy, speech intelligibility, valence-arousal
spatial distribution, and correlation between SCL-90 and disease severity. The
automatic recognition tested on speech and glottal data, with average accuracy
of 78% for controls and 60% for patients in audio, while 51% for controls and
38% for patients in glottal data, indicating an influence of the disease on
emotional expression.
- Abstract(参考訳): 利用可能な感情病理データベースの欠如は、不整脈患者の感情表現状態を研究する上で重要な障害の1つである。
本稿では,マルチパースペクティブ情報を含む最初の中国語マルチモーダル感情病的音声データベースについて述べる。
29のコントロールと39の患者が、幸せ、悲しみ、怒り、中立的な感情を表現している。
全感情音声は,WeChatのミニプログラムにより,インテリジェンス,タイプ,離散次元感情にラベル付けされた。
主観的分析は,感情識別精度,発話明瞭度,ヴァレンス・覚醒空間分布,scl-90と疾患重症度との相関から正当化される。
音声と声門データを用いた自動認識では, 平均精度78%, 音声の60%, コントロール51%, 声門データ38%で, 感情表現への影響が示唆された。
関連論文リスト
- Empowering Dysarthric Speech: Leveraging Advanced LLMs for Accurate Speech Correction and Multimodal Emotion Analysis [0.0]
本稿では, 変形性関節症を認識・翻訳するための新しいアプローチを提案する。
我々は、高精度な音声補正とマルチモーダル感情分析に先進的な大規模言語モデルを活用する。
我々の枠組みは、意図した文を歪んだ音声から高精度に再構成しながら、幸福、悲しみ、中立、驚き、怒り、恐怖などの感情を識別する。
論文 参考訳(メタデータ) (2024-10-13T20:54:44Z) - MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders [59.515827458631975]
メンタルヘルス障害は世界で最も深刻な病気の1つである。
プライバシーに関する懸念は、パーソナライズされた治療データのアクセシビリティを制限する。
MentalArenaは、言語モデルをトレーニングするためのセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-10-09T13:06:40Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Construction and Evaluation of Mandarin Multimodal Emotional Speech
Database [0.0]
次元アノテーションの妥当性は次元アノテーションデータの統計的解析によって検証される。
7つの感情の認識率は、音響データだけで約82%である。
データベースは高品質であり、音声分析研究の重要な情報源として利用することができる。
論文 参考訳(メタデータ) (2024-01-14T17:56:36Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Language and Mental Health: Measures of Emotion Dynamics from Text as
Linguistic Biosocial Markers [30.656554495536618]
本研究では,ツィート感情動態とメンタルヘルス障害との関連について検討した。
調査対象のUEDメトリクスはそれぞれ,ユーザの自己開示診断によって異なることがわかった。
この研究は、感情力学に関連する言語的手がかりが、精神疾患のバイオ社会マーカーとして重要な役割を担っていることを示す重要な初期の証拠を提供する。
論文 参考訳(メタデータ) (2023-10-26T13:00:26Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。