論文の概要: Learning Physiology-Informed Vocal Spectrotemporal Representations for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2602.13259v1
- Date: Tue, 03 Feb 2026 03:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.593065
- Title: Learning Physiology-Informed Vocal Spectrotemporal Representations for Speech Emotion Recognition
- Title(参考訳): 音声感情認識のための学習生理的インフォームド音声スペクトル表現法
- Authors: Xu Zhang, Longbing Cao, Runze Yang, Zhangkai Wu,
- Abstract要約: 音声感情認識(SER)は、社会ロボティクスやロボット心理学的診断などのヒューマノイドロボットのタスクに不可欠である。
大規模なデータセットでトレーニングされた既存のディープモデルは、ほとんど解釈できないままである。
生理的インフォームド音声スペクトル表現学習法であるPhyloSERを提案する。
- 参考スコア(独自算出の注目度): 30.3773200520904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) is essential for humanoid robot tasks such as social robotic interactions and robotic psychological diagnosis, where interpretable and efficient models are critical for safety and performance. Existing deep models trained on large datasets remain largely uninterpretable, often insufficiently modeling underlying emotional acoustic signals and failing to capture and analyze the core physiology of emotional vocal behaviors. Physiological research on human voices shows that the dynamics of vocal amplitude and phase correlate with emotions through the vocal tract filter and the glottal source. However, most existing deep models solely involve amplitude but fail to couple the physiological features of and between amplitude and phase. Here, we propose PhysioSER, a physiology-informed vocal spectrotemporal representation learning method, to address these issues with a compact, plug-and-play design. PhysioSER constructs amplitude and phase views informed by voice anatomy and physiology (VAP) to complement SSL models for SER. This VAP-informed framework incorporates two parallel workflows: a vocal feature representation branch to decompose vocal signals based on VAP, embed them into a quaternion field, and use Hamilton-structured quaternion convolutions for modeling their dynamic interactions; and a latent representation branch based on a frozen SSL backbone. Then, utterance-level features from both workflows are aligned by a Contrastive Projection and Alignment framework, followed by a shallow attention fusion head for SER classification. PhysioSER is shown to be interpretable and efficient for SER through extensive evaluations across 14 datasets, 10 languages, and 6 backbones, and its practical efficacy is validated by real-time deployment on a humanoid robotic platform.
- Abstract(参考訳): 音声感情認識(SER)は、社会的ロボティクスやロボット心理学的診断などのヒューマノイドロボットの作業において不可欠である。
大規模なデータセットで訓練された既存のディープモデルは、ほとんど解釈不能であり、基礎となる感情的な音響信号のモデル化が不十分であり、感情的な声の行動の中核的な生理学を捉え、分析することができないことが多い。
人間の声の生理学的研究は、声道フィルターと声門源を通して声道振幅と位相のダイナミクスが感情と相関していることを示している。
しかし、既存のディープモデルのほとんどは振幅のみを含むが、振幅と位相の間の生理的特徴を結合することができない。
本稿では,これらの問題をコンパクトでプラグアンドプレイな設計で解くために,生理的インフォームド音声スペクトル表現学習法であるPhyloSERを提案する。
physioSERは、音声解剖学と生理学(VAP)によって通知される振幅と位相ビューを構築し、SERのSSLモデルを補完する。
このVAPインフォームドフレームワークには、VAPに基づく音声信号の分解、四元体への埋め込み、ハミルトン構造による四元体畳み込みによる動的相互作用のモデル化、凍結したSSLバックボーンに基づく潜時表現ブランチという2つの並列ワークフローが含まれている。
そして、両方のワークフローからの発話レベル機能は、Contrastive Projection and Alignmentフレームワークと、SER分類のための浅い注意融合ヘッドによって整列される。
PhysioSERは、14のデータセット、10の言語、6のバックボーンにわたる広範な評価を通じて、SERに対して解釈可能で効率的であることが示されている。
関連論文リスト
- Audio-Vision Contrastive Learning for Phonological Class Recognition [6.476789653980653]
実時間磁気共鳴画像(rtMRI)と音声信号を組み合わせて3つの重要な調音次元を分類する多モードディープラーニングフレームワークを提案する。
USC-TIMITデータセットによる実験結果から,我々のコントラスト学習に基づくアプローチが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-07-23T16:44:22Z) - MOSPA: Human Motion Generation Driven by Spatial Audio [83.31594478750682]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。
本研究では,身体運動と空間音声の関係を忠実に把握する,MOSPAと呼ばれるスパティアルオーディオによって駆動される人間の運動生成のためのフレームワークを開発する。
本手法は,本課題における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-16T06:33:11Z) - A Speech-to-Video Synthesis Approach Using Spatio-Temporal Diffusion for Vocal Tract MRI [22.92611067883196]
音声信号から声道の視覚を生成するための音声・ビデオ生成フレームワークを提案する。
本フレームワークは,まずRT-/cine-MRIシーケンスと音声サンプルを前処理し,時間的アライメントを実現する。
合成ビデオにおける声道運動の解析と比較により,健常者および舌癌患者の声道運動に関する枠組みについて検討した。
論文 参考訳(メタデータ) (2025-03-15T12:12:50Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI [9.614694312155798]
本稿では,音声合成中の声道形状の可変長列における音響情報を理解する,ディープニューラルネットワークに基づく学習フレームワークを提案する。
提案するフレームワークは、畳み込み、繰り返しネットワーク、接続性時間的分類損失から成り、完全にエンドツーエンドに訓練されている。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の動脈の動きに基づいて、音声文全体の認識を示す最初の研究である。
論文 参考訳(メタデータ) (2021-06-16T11:20:02Z) - Emotion Recognition of the Singing Voice: Toward a Real-Time Analysis
Tool for Singers [0.0]
現在の計算感情研究は、感情が数学的に知覚される方法を分析するために音響特性を適用することに焦点を当てている。
本稿は,関連する研究の知見を反映し,拡張し,この目標に向けての一歩を踏み出す。
論文 参考訳(メタデータ) (2021-05-01T05:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。