論文の概要: Speech Emotion Recognition with Phonation Excitation Information and Articulatory Kinematics
- arxiv url: http://arxiv.org/abs/2511.07955v1
- Date: Wed, 12 Nov 2025 01:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.565881
- Title: Speech Emotion Recognition with Phonation Excitation Information and Articulatory Kinematics
- Title(参考訳): 発声励起情報と調音運動を用いた音声感情認識
- Authors: Ziqian Zhang, Min Huang, Zhongzhe Xiao,
- Abstract要約: 深層学習のための音声感情認識(SER)は著しく進歩している。
音声生成時の生理的情報に焦点を当てた研究はほとんどない。
本研究は,SERにおける発声励起情報と調音運動学の可能性を検討するための実験である。
- 参考スコア(独自算出の注目度): 4.197135636406991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) has advanced significantly for the sake of deep-learning methods, while textual information further enhances its performance. However, few studies have focused on the physiological information during speech production, which also encompasses speaker traits, including emotional states. To bridge this gap, we conducted a series of experiments to investigate the potential of the phonation excitation information and articulatory kinematics for SER. Due to the scarcity of training data for this purpose, we introduce a portrayed emotional dataset, STEM-E2VA, which includes audio and physiological data such as electroglottography (EGG) and electromagnetic articulography (EMA). EGG and EMA provide information of phonation excitation and articulatory kinematics, respectively. Additionally, we performed emotion recognition using estimated physiological data derived through inversion methods from speech, instead of collected EGG and EMA, to explore the feasibility of applying such physiological information in real-world SER. Experimental results confirm the effectiveness of incorporating physiological information about speech production for SER and demonstrate its potential for practical use in real-world scenarios.
- Abstract(参考訳): 深層学習のために音声感情認識(SER)が大幅に進歩し,テキスト情報によりその性能が向上した。
しかし、音声生成中の生理的情報に焦点を当てた研究はほとんどなく、感情状態を含む話者の特徴も含む。
このギャップを埋めるため,SERのための音素励起情報と調音運動学の可能性について,一連の実験を行った。
本研究は,心電図 (EGG) や電磁脈管図 (EMA) などの音声・生理学的データを含む情動データセットであるSTEM-E2VAを導入する。
EGGとEMAはそれぞれ、発声励起情報と調音キネマティクスの情報を提供する。
さらに,EGGやEMAではなく,音声からの逆転法による推定生理的データを用いて感情認識を行い,現実世界のSERにそのような生理的情報を適用する可能性について検討した。
実験結果から,SERにおける音声生成に関する生理的情報の導入の有効性を確認し,実世界のシナリオにおける実用の可能性を示した。
関連論文リスト
- CAST-Phys: Contactless Affective States Through Physiological signals Database [74.28082880875368]
感情的なマルチモーダルデータセットの欠如は、正確な感情認識システムを開発する上で、依然として大きなボトルネックとなっている。
遠隔の生理的感情認識が可能な新しい高品質なデータセットであるCAST-Physを提示する。
本分析では,表情だけでは十分な感情情報が得られない現実的なシナリオにおいて,生理的信号が重要な役割を担っていることを強調した。
論文 参考訳(メタデータ) (2025-07-08T15:20:24Z) - Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025 [64.59170359368699]
自然条件課題におけるInterSPEECH 2025音声感情認識のための頑健なシステムを提案する。
提案手法は,最先端の音声モデルと韻律的・スペクトル的手法によって強化されたテキスト特徴を組み合わせる。
論文 参考訳(メタデータ) (2025-06-02T13:46:02Z) - Complex Emotion Recognition System using basic emotions via Facial Expression, EEG, and ECG Signals: a review [1.8310098790941458]
複雑な感情認識システム(CERS)は、表現された基本的な感情、それらの相互関係、そして動的変動の組合せを調べることによって、複雑な感情状態を解読する。
複雑な感情を識別するAIシステムの開発は、感情的コンピューティングに重要な意味を持つ重要な課題となっている。
心電図(ECG)や脳電図(EEG)などの生理的シグナルを取り入れることで、CERSを顕著に増強することができる。
論文 参考訳(メタデータ) (2024-09-09T05:06:10Z) - fMRI from EEG is only Deep Learning away: the use of interpretable DL to
unravel EEG-fMRI relationships [68.8204255655161]
多チャンネル脳波データからいくつかの皮質下領域の活性を回復するための解釈可能な領域基底解を提案する。
我々は,皮質下核の血行動態信号の頭皮脳波予測の空間的・時間的パターンを復元する。
論文 参考訳(メタデータ) (2022-10-23T15:11:37Z) - Enhancing Affective Representations of Music-Induced EEG through
Multimodal Supervision and latent Domain Adaptation [34.726185927120355]
脳波の重み付けとして音楽信号を用い,その意味的対応を共通の表現空間に投影することを目的としている。
我々は、LSTMに基づくアテンションモデルと、音楽タギングのための事前訓練されたモデルを組み合わせたバイモーダル・フレームワークと、その2つのモードの分布を整列するリバース・ドメイン・ディミネータを併用して、バイモーダル・フレームワークを利用する。
脳波入力クエリに関連音楽サンプルを提供することにより、モダリティのいずれからも、間接的に、教師付き予測を行うことで、感情認識に利用することができる。
論文 参考訳(メタデータ) (2022-02-20T07:32:12Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Contrastive Learning of Subject-Invariant EEG Representations for
Cross-Subject Emotion Recognition [9.07006689672858]
本稿では、信頼度の高いクロスオブジェクト感情認識のためのISAのためのコントラスト学習法を提案する。
ISAは、異なる刺激に対して同じ刺激を受けた被験者間での脳波信号の類似性を最大化する。
脳波信号から物体間表現を学習するために,深部空間畳み込み層と時間畳み込み層を有する畳み込みニューラルネットワークを適用した。
論文 参考訳(メタデータ) (2021-09-20T14:13:45Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Brain Signals to Rescue Aphasia, Apraxia and Dysarthria Speech
Recognition [14.544989316741091]
本稿では,失語症,失語症,構音障害に対する自動音声認識システムの性能を向上させるための深層学習に基づくアルゴリズムを提案する。
分離音声認識タスクにおいて,テスト時間中のデコード性能が50%以上向上することを示す。
その結果, 失語症, 失語症, 構音障害から回復した脳卒中患者の実時間ロバスト音声補綴物の設計に非侵襲的神経信号を利用する可能性を示す第一歩が示された。
論文 参考訳(メタデータ) (2021-02-28T03:27:02Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Emotion Recognition System from Speech and Visual Information based on
Convolutional Neural Networks [6.676572642463495]
本研究では,感情を高精度かつリアルタイムに認識できるシステムを提案する。
音声認識システムの精度を高めるため、音声データも分析し、両情報源から得られる情報を融合する。
論文 参考訳(メタデータ) (2020-02-29T22:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。