論文の概要: VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation
- arxiv url: http://arxiv.org/abs/2602.06270v1
- Date: Fri, 06 Feb 2026 00:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.163055
- Title: VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation
- Title(参考訳): 母音プロンプト:母音レベルの韻律拡張によるテキストからの音声感情の聴取
- Authors: Yancheng Wang, Osama Hanna, Ruiming Xie, Xianfeng Rui, Maohao Shen, Xuedong Zhang, Christian Fuegen, Jilong Wu, Debjyoti Paul, Arthur Guo, Zhihong Lei, Ozlem Kalinli, Qing He, Yingzhen Yang,
- Abstract要約: このフレームワークは、解釈可能な、きめ細かい母音レベルの韻律的手がかりで、大きな言語モデルを拡張する。
VowelPromptは、ゼロショット、微調整、クロスドメイン、クロス言語条件下で、最先端の感情認識手法より一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 34.905479321921575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition in speech presents a complex multimodal challenge, requiring comprehension of both linguistic content and vocal expressivity, particularly prosodic features such as fundamental frequency, intensity, and temporal dynamics. Although large language models (LLMs) have shown promise in reasoning over textual transcriptions for emotion recognition, they typically neglect fine-grained prosodic information, limiting their effectiveness and interpretability. In this work, we propose VowelPrompt, a linguistically grounded framework that augments LLM-based emotion recognition with interpretable, fine-grained vowel-level prosodic cues. Drawing on phonetic evidence that vowels serve as primary carriers of affective prosody, VowelPrompt extracts pitch-, energy-, and duration-based descriptors from time-aligned vowel segments, and converts these features into natural language descriptions for better interpretability. Such a design enables LLMs to jointly reason over lexical semantics and fine-grained prosodic variation. Moreover, we adopt a two-stage adaptation procedure comprising supervised fine-tuning (SFT) followed by Reinforcement Learning with Verifiable Reward (RLVR), implemented via Group Relative Policy Optimization (GRPO), to enhance reasoning capability, enforce structured output adherence, and improve generalization across domains and speaker variations. Extensive evaluations across diverse benchmark datasets demonstrate that VowelPrompt consistently outperforms state-of-the-art emotion recognition methods under zero-shot, fine-tuned, cross-domain, and cross-linguistic conditions, while enabling the generation of interpretable explanations that are jointly grounded in contextual semantics and fine-grained prosodic structure.
- Abstract(参考訳): 音声における感情認識は、言語内容と声の表現性の両方、特に基本周波数、強度、時間力学といった韻律的特徴の理解を必要とする複雑な多モーダルな課題を示す。
大きな言語モデル(LLM)は、感情認識のためのテキストの書き起こしを推論する上で有望であることを示しているが、通常は詳細な韻律情報を無視し、その有効性と解釈可能性を制限する。
本研究では,LLMに基づく感情認識を解釈可能な,きめ細かな母音レベルの韻律的手がかりで強化する言語基盤フレームワークであるVowelPromptを提案する。
VowelPromptは、母音が情緒的韻律の一次担体として機能するという音韻的証拠に基づいて、時間的に整列した母音セグメントからピッチ、エネルギー、持続時間に基づく記述子を抽出し、これらの特徴をより理解しやすいように自然言語記述に変換する。
このような設計により、LLMは語彙的意味論と微妙な韻律的変動を共同で推論することができる。
さらに、教師付き微調整(SFT)と強化学習(RLVR)を併用した2段階適応手法を採用し、グループ相対ポリシー最適化(GRPO)を用いて実装し、推論能力を高め、構造化出力の定着を強制し、ドメイン間の一般化と話者変動を改善する。
多様なベンチマークデータセットにわたる広範囲な評価により、VowelPromptはゼロショット、微調整、クロスドメイン、クロス言語的な条件下で、常に最先端の感情認識手法より優れており、コンテキスト意味論と微粒な韻律構造に共同で根ざした解釈可能な説明の生成を可能にしている。
関連論文リスト
- ES4R: Speech Encoding Based on Prepositive Affective Modeling for Empathetic Response Generation [30.006550552714938]
共感的音声対話は、言語内容だけでなく、豊富なパラ言語情報も理解する必要がある。
既存の音声から音声への大きな言語モデルは、ASRの転写に依存するか、エンコーダを使用して潜在表現を抽出する。
音声に基づく共感応答生成のためのフレームワークである textbfES4R を提案する。
論文 参考訳(メタデータ) (2026-01-16T10:26:50Z) - Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition [49.41688891301643]
動的表情認識は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的としている。
DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。
本稿では,テキスト誘導型弱教師付きフレームワークであるTG-DFERを提案する。
論文 参考訳(メタデータ) (2025-11-14T04:49:58Z) - Evaluating Emotion Recognition in Spoken Language Models on Emotionally Incongruent Speech [0.13048920509133805]
音声感情認識における4つの音声言語モデル(SLM)の評価を行った。
以上の結果から,SLMは音声の感情よりもテキストのセマンティクスに大きく依存していることが示唆された。
論文 参考訳(メタデータ) (2025-10-29T00:45:36Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。
本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文 参考訳(メタデータ) (2025-07-16T04:15:06Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。